Nutch1.4 windows下eclipse配置图文详解.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Nutch1.4 windows下eclipse配置图文详解

网络上关于nutch1.4的配置和使用很少,官方网站提供的方法我研究了半天特别麻烦,而且发现弄完后有的依赖包找不到,我决定放弃使用。将这两天关于nutch1.4配置的另一种方法整理一下 仅供参考!如有其它问题欢迎加1277140354一起交流学习!配置安装JDK省略。我用的是JDK1.6,JDK6官方下载地址:/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008.exe/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008.exe JDK1.5 ANT编译的时候会失败下载eclipse省略 地址:/downloads//downloads/Ant安装 使用必威体育精装版的Apache Ant 1.8.3 Apache Ant 1.8.3 is now available for download as source or binary from /bindownload.cgi/bindownload.cgi.我个人下载的 解压后的目录为E:\Mysdk\apache-ant-1.8.3配置Ant环境变量ANT_HOME 、PATH,在系统变量中,点击新建,变量名:ANT_HOME,变量值:将%ANT_HOME%\bin; %ANT_HOME%\lib添加到环境变量的path中。Cmd中测试ant指令结果如下说明ANT安装成功可以进行下一步、4 、安装cygwin所以报错从官方网站下载必威体育精装版的cygwin官网地址// 下载地址 /setup.exesetup.exe下载后安装 下一步 有错误提示直接忽略不用选择 默认即可点击下一步配置一下环境变量添加 CYGWIN_HOME在path中添加%CYGWIN_HOME%\bin5、安装nutch1.4 官方网站//,下载地址/nutch//nutch/我选择的是/nutch/apache-nutch-1.4-bin.zipapache-nutch-1.4-bin.zip 解压后目录为:E:\Mysdk\apache-nutch-1.4-binCmd 到E:\Mysdk\apache-nutch-1.4-bin 执行ant然后就耐心等待一下吧! 6导入eclipse中新建工程 点击下一步找到conf文件夹 选择Add folder ‘conf’to buid path 我将default output folder设置为Nutch/conf点击finish如果一切正常将没有错误7修改nutch1.4配置信息修改conf下nutch-default文件将plugin.folders 的值由plugins修改为./src/plugin按照官方网站说明在工程目录下建立urls目录在目录下建立txt文件,文件名字随意填写一个网址作为爬虫的目标网址在conf下配置nutch-site.xml文件configuration中加入property name/name valueMy Nutch Spider/value/property修改regex-urlfilter.txt将# accept anything else+.处替换为+^http://([a-z0-9]*\.)*163.com ?表示只抓取站内的内容8 、经过以上配置基本上完成要求。下面看看运行的配置,在Package Explorer中右击工程选择Run asruncon figurations 在java application下新建设置main class为 org.apache.nutch.crawl.Crawl在 Arguments选项卡下Program Arguments 中填写 urls -dir crawl -depth 3 -topN 50在VM arguments 中填写-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log单击run即可看到运行效果我这在笔记本上运行出现了错误 在VM arguments 中加上 -Xms800m -Xmx800m再次运行。。。。。。。

您可能关注的文档

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档