- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
开源有哪些信誉好的足球投注网站引擎框架Nutch配置基础教程
开源有哪些信誉好的足球投注网站引擎框架 Nutch 配置基础教程 V1.0
四川大学电子信息学院信息安全 文档编写与整理 :liyawei 2014/9/26
概述
Nutch 是一个开源 Java 实现的有哪些信誉好的足球投注网站引擎。它提供了我们运行自己的有哪些信誉好的足球投注网站引擎所需的全部工具。包括全文
有哪些信誉好的足球投注网站和 Web 爬虫。
本文介绍 Nutch 旧版本 (Nutch1.2 )的基本配置。 (使用旧版本是因为旧版本比新版本配置简单 )
演示本文所用的操作系统为 Red Hat Enterprise Linux 6.5(一下简称 RHEL)。如果要在 windows 下使
用,总体思路上不会有太大变化,但需要使用到软件 cygwin。
软件下载地址
Nutch1.2 :/dist/nutch/apache-nutch-1.2-bin.zip
Tomcat6.0.41 :/apache/tomcat/tomcat-6/v6.0.41/bin/apache-tomcat-
6.0.41.zip
JAVA JDK1.6/1.7 :本文中使用yum 命令获取 ,也可以到 /中下载 ,网站上有安装教
程。
JAVA 环境配置
用 root 用户登录 RHEL
RHEL 中安装java jdk
打开控制台 ,命令yum install –y java* ,执行过程中没有报错则 OK !
设置 JAVA 环境变量
编辑文件/etc/profile
在export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL 这行之前添加以下三行 :
export JAVA_HOME=/usr/lib/jvm/java -1.6.0-openjdk -.x86_64
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
1
保存该文件,在控制台输入命令java –version ,看到以下信息则 OK
Tomcat 配置
把下载的 apache-tomcat-6.0.4.zip 解压
进入解压后的 apache-tomcat-6.0.41 目录 ,点右键打开控制台,输入命令 chmod a+x –R bin
该步骤使 bin 目录下所有文件具备可执行权限
为了使 Tomcat 更好的支持中文,编辑 apache-tomcat-6.0.41 目录下的 conf/server.xml。
找到 Connector port=8080 …… /标签 ,向标签内部添加以下内容:
URIEncoding=UTF -8 useBodyEncodingForURI=true
2
变成这样 :
保存文件,OK !
Nutch 基本配置
解压apache -nutch-1.2-bin.zip ,到文件夹 nutch-1.2 下。
进入解压后的 nutch-1.2 目录,点右键打开控制台,输入命令chmod a+x –R bin ,该步骤使 bin 目录下
所有文件具备可执行权限 ,
为爬虫命名,此步骤看似简单却不可缺。
编辑 nutch1-2/conf/nutch-default.xml ,设置 下的value 标签内为你的爬虫的名字。
指定爬虫的起始网址 :
在 nutch-1.2 目录中新建个文件,名为 “urls”,该文件中会指定爬虫将要爬行的起始网址 ,输入你想抓取的
所有网址,每行一个,确保包括http://和结尾的斜杠/。
使爬虫能够爬取动态生成的网页 :
为了爬虫能爬去到动态网页,需要编辑 nutch-1.2/conf/ crawl -urlfilter.txt 和 nutch -1.2/conf/regex -
urlfilter.txt
找到行
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
这两行意思是跳过在连
您可能关注的文档
最近下载
- 《GB 14881 食品生产通用卫生规范》考试题.docx
- 雷军2024年度演讲PPT-小米-2024-144页.doc VIP
- 凌海航达飞机客舱公司质量管理表单表格汇编DOC(100页)分析.doc
- 2024年高二数学知识点 利用导数研究单调性.pdf VIP
- 2023年最全的五子棋练棋题库.doc
- 六年级上册道德与法治试题-期中测试题(含答案)部编版.pdf
- 凌海航达航空科技公司质量管理程序文件手册DOC(131页)分析.doc
- 《GB/T 9711-2023石油天然气工业 管线输送系统用钢管》.pdf
- 2024至2030年中国银浆行业市场全景调研及发展趋势分析报告.docx
- 民用机场飞行区技术标准(MH5001-2013).pdf
文档评论(0)