开源有哪些信誉好的足球投注网站引擎框架Nutch配置基础教程.pdf

下载文档

2
0
约4.29千字
约 7页
2017-05-26 发布于江苏
举报
版权申诉
保障服务

开源有哪些信誉好的足球投注网站引擎框架Nutch配置基础教程.pdf

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

开源有哪些信誉好的足球投注网站引擎框架Nutch配置基础教程

开源有哪些信誉好的足球投注网站引擎框架 Nutch 配置基础教程 V1.0 四川大学电子信息学院信息安全文档编写与整理：liyawei 2014/9/26 概述 Nutch 是一个开源 Java 实现的有哪些信誉好的足球投注网站引擎。它提供了我们运行自己的有哪些信誉好的足球投注网站引擎所需的全部工具。包括全文有哪些信誉好的足球投注网站和 Web 爬虫。本文介绍 Nutch 旧版本（Nutch1.2 ）的基本配置。（使用旧版本是因为旧版本比新版本配置简单）演示本文所用的操作系统为 Red Hat Enterprise Linux 6.5(一下简称 RHEL)。如果要在 windows 下使用，总体思路上不会有太大变化，但需要使用到软件 cygwin。软件下载地址  Nutch1.2 ：/dist/nutch/apache-nutch-1.2-bin.zip  Tomcat6.0.41 ：/apache/tomcat/tomcat-6/v6.0.41/bin/apache-tomcat- 6.0.41.zip  JAVA JDK1.6/1.7 ：本文中使用yum 命令获取，也可以到 /中下载，网站上有安装教程。 JAVA 环境配置  用 root 用户登录 RHEL  RHEL 中安装java jdk 打开控制台，命令yum install –y java* ，执行过程中没有报错则 OK ！  设置 JAVA 环境变量编辑文件/etc/profile 在export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL 这行之前添加以下三行： export JAVA_HOME=/usr/lib/jvm/java -1.6.0-openjdk -.x86_64 export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin 1  保存该文件，在控制台输入命令java –version ，看到以下信息则 OK Tomcat 配置  把下载的 apache-tomcat-6.0.4.zip 解压  进入解压后的 apache-tomcat-6.0.41 目录，点右键打开控制台，输入命令 chmod a+x –R bin 该步骤使 bin 目录下所有文件具备可执行权限  为了使 Tomcat 更好的支持中文，编辑 apache-tomcat-6.0.41 目录下的 conf/server.xml。找到 Connector port=8080 …… /标签，向标签内部添加以下内容： URIEncoding=UTF -8 useBodyEncodingForURI=true 2 变成这样：  保存文件，OK ！ Nutch 基本配置  解压apache -nutch-1.2-bin.zip ，到文件夹 nutch-1.2 下。进入解压后的 nutch-1.2 目录，点右键打开控制台，输入命令chmod a+x –R bin ，该步骤使 bin 目录下所有文件具备可执行权限，  为爬虫命名，此步骤看似简单却不可缺。编辑 nutch1-2/conf/nutch-default.xml ，设置下的value 标签内为你的爬虫的名字。  指定爬虫的起始网址：在 nutch-1.2 目录中新建个文件，名为 “urls”,该文件中会指定爬虫将要爬行的起始网址，输入你想抓取的所有网址，每行一个，确保包括http://和结尾的斜杠/。  使爬虫能够爬取动态生成的网页：为了爬虫能爬去到动态网页，需要编辑 nutch-1.2/conf/ crawl -urlfilter.txt 和 nutch -1.2/conf/regex - urlfilter.txt 找到行 # skip URLs containing certain characters as probable queries, etc. -[?*!@=] 这两行意思是跳过在连