- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网站新闻收集系统设计与实现
网站新闻收集系统设计与实现
摘要:为了使用户更加方便地查看新闻信息,不受时间或是网络资源等条件的制约,也可以做为自动生成新闻网页的新闻类网站提供信息来源,该系统以面向对象的设计思想,采用Java语言,凭借Eclipse3.1的开发工具,对网站新闻信息进行了搜集。在可移植性和可维护性等方面有较好的体现。其中运用了多线程的方法对新闻信息进行了快速的下载、整理与收集,为用户查阅新闻信息提供了方便,节省了大量时间。
关键词:面象对象;多线程;新闻搜集;正则表达式
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)05-1098-04
The Design and Implementation of News-gathering System for Website
QIU Zhao-cun
(Jiangsu Radio and Television University Jiangdu College, Yangzhou 225200, China)
Abstract: To enable users to more easily view news and information, without the restriction of time or network resources and other condi? tions, the system can provide original information for the news website that can automatically generate news pages. The system relys on the object-oriented design idea, Java language, and the development tools of Eclipse3.1, to gather information for the site. It has better perfor? mance in portability and maintainability and other aspects. The system can realize fast download, arrangement and collection of the news and information by using multi-threaded approach, and make it convenient for users to access news and information.
Key words: object-oriented; multi-threading; news gathering; regular expression
如今,网络在人们生活和工作中起着越来越重要的作用,而从网上获取新闻信息更是成了很多人获知新闻的主要渠道。如果拥有自己的网站,为了让更多的人来浏览,就必须进行及时更新,可以从那些大的网站中找出想要的新闻信息然后转载过来,然而,这些网站上的信息量巨大,如果仅仅靠人工方式进行机械的拷贝,那将显得效率太低且繁琐,其实,我们可以编写程序让程序来完成这些工作。
1需求分析
1.1现状分析
现代人的生活已经越来越离不开互联网络了。我们的语言中已经由于网络而增加了许多新鲜的血液,通讯交流由于网络而变得更加方便快捷,知识的更新速度也由于网络而加快……中国互联网的发展迅速,为了对中文信息处理作一些研究,我们需要先从网络中收集部分相关的信息。163和TOM两个网站的信息量较大,故将这两个网站作为目标站点,从中收集原始数据。
1.2设计目标
研究目标是:对面向对象编程的整个过程有一个全面的了解;熟练使用Java语言进行编程,尤其要掌握用Java进行网络编程的方法;能在Eclipse环境中进行Java项目的开发;了解Html标记语言,能通过程序分析找出Html标记当中的超链接。
设计内容:网络信息收集系统的开发。首先,通过在硬盘上建一个根目录,在这个根目录下新建一个子目录,子目录名为程序运行的日期,然后在子目录下建立163、TOM两个目录,在目录下分别建立政治、体育、财经等十个目录;将163、TOM网站的新闻主页下载下来,存放在各自的根目录下;通过分析新闻主页的Html代码,找出要下载的超链接;再对这些超链接进行分析,将其分类并下载下来,分别存放到已经建立的目录下。
1.3平台选择
操作系统:WindowsXP
开发语言:Java
开发平台:JDK5.0、Eclipse
2系统实现技术
文档评论(0)