- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Design and Implement a Web News Retrieval System (中文翻译版)
设计和实现一个网络新闻检索系统
James N.K. Liu, Weidong Luo, and Edmond M.C. Chan
香港理工大学,计算机系
{csnkliu,cswdluo}@.hk, spmcchan@.hk
摘要:我们展示了“Ai-Times”系统的设计和实现,这是一个基于网络的新闻检索系同时,我们也详细地描述了爬虫模型,新闻提取模型和自动摘要模型。
简介
通过因特网能够轻松获取到的在线信息量正在呈现爆炸式的发展,这是一个不争的事实。当可用信息增加的时候,处理、分析和使用如此大量信息的能力不足也变得越来越明显。在线的新闻信息也存在着这样的问题。而且,目前可用的有哪些信誉好的足球投注网站引擎也效率低下。例如,不能满足用户根据他们指定的目录和时间片获取信息的功能,也不能根据需求的频率来提供在线的新闻信息。
我们描述的“Ai-Times”系统(包括设计和实现),是一个基于网络的新闻检索系统,而它的目标就是精确地获取和组织网络上的新闻信息。同样,我们也详细地描述了爬虫模型,新闻提取模型和自动摘要模型。我们相信许多现有的新闻检索系统已经用到了这些技术中的一部分,但是却很少有关于关于这些技术的科学性研究。
这篇论文的剩余部分是这样组织的:在第二部分,我们回顾了在新闻检索系统方面的相关工作;在第三部分,我们定义了关键的部分,并且描述了“Ai-Times”系统的运作,包括优化的网络爬虫算法,新闻内容提取模型和自动摘要模型;在第四部分,我们给出了实验结果;最后一个部分是我们的结论。
相关工作
新闻信息检索已经被大量的研究过了[1,2,3,4,5]。很多研究是在新闻信息检索的一般结构上完成的。例如,引用展现了一个利用关键字自动分类电视新闻文章的系统;引用描述了“THISL”,一个维护BBC广播和电视新闻记录文档的新闻信息检索系统;引用介绍了基于万维网信息检索和提取系统;引用展示了一个基于一些报纸(例如:Times)的现有数据库的新闻检索工具的设计。上述的论文对新闻信息检索的总体结构有很大的贡献。然而,他们中没有一个详细地描述了核心模块,例如爬虫模块,新闻提取模块和自动摘要模块。
也存在着一些研究长串提取算法和网络爬虫算法的文章。例如,引用描述了一个将HTML文档自动转化成树形语义结构的算法,同时也展示了其隐含的意义。然而,当被用于新闻提取的时候,它并不能对所有种类的HTML页面进行合理的分析。引用介绍了怎样实现一个有效的网络爬虫。然而,当直接用于新闻检索的问题时,性能一般的网络爬虫的表现还是相对会差一点。
“Ai-Times”的结构和算法
这个部分我们描述了“Ai-Times”的基本框架。同时,也详细地讲了爬虫模块,新闻提取模块和摘要模块的算法。
3.1 结构
图1展示了“Ai-Times”系统的结构,包括几个经典的基于WEB信息检索系统的模块:网络爬虫,自动分类模块,索引引擎,有哪些信誉好的足球投注网站模块和自动摘要模块。“Ai-Times”的特殊在于:“Ai-Times”系统只需要非常少的人工操作,就能够自动提取出新闻的标题,文本内容和图片信息;同时,它也通过优化网络爬虫算法的方法,节省了爬取和更新的时间;当然,“Ai-Times”也能够提供新闻的摘要。
我们会在3.2节到3.4节之间,详细地介绍网络爬虫模块,新闻提取模块和自动摘要模块。
图1. “Ai-Times”新闻检索系统的结构
3.2 网络爬虫
新闻信息检索系统的一个基础而重要的组件是网络爬虫,它能够自动地搜集网络文本。这个领域已经有了很多的研究,例如:Cobweb[6]就是一个典型的网络爬虫。“Ai-Times”专注于从一些预先定义的新闻网站上搜集信息,所以“Ai-Times”的网络爬虫算法不同于经典的网络爬虫算法。经典的网络爬虫算法已经在论文中讨论过了,但我们展示了一个使用与新闻网络爬虫的优化算法。
下面给出一些定义,包括无价值的网络文本,包含新闻的网络文本,索引等:
没有价值的网络文本:那些对新闻信息检索没有价值的网络文本,例如:广告网页。
包含新闻的网络文本:主要指包括新闻文本、新闻图片和其他的一些媒体资源的网页。
目录或者文本列表:主要指包含一些链接的网页,这些链接指向的则是包含新闻内容的或相关主题的网页;通常,主题就是新闻的题目。
算法一:优化的爬虫算法
Begin
Let I be a list of initial URLs of the news website;
Let F be a queue;
For each URL i in I
Enqueue(i,F);
End
While F is not empty
u=Dequeue(F);
if u has not been processed
Get (u);
Case u’s type:
Valueless web docume
文档评论(0)