Design and Implement a Web News Retrieval System (中文翻译版).doc

下载文档

5
0
约6.76千字
约 8页
2017-12-13 发布于河南
举报
版权申诉
保障服务

Design and Implement a Web News Retrieval System (中文翻译版).doc

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Design and Implement a Web News Retrieval System (中文翻译版)

设计和实现一个网络新闻检索系统 James N.K. Liu, Weidong Luo, and Edmond M.C. Chan 香港理工大学，计算机系 {csnkliu,cswdluo}@.hk, spmcchan@.hk 摘要：我们展示了“Ai-Times”系统的设计和实现，这是一个基于网络的新闻检索系同时，我们也详细地描述了爬虫模型，新闻提取模型和自动摘要模型。简介通过因特网能够轻松获取到的在线信息量正在呈现爆炸式的发展，这是一个不争的事实。当可用信息增加的时候，处理、分析和使用如此大量信息的能力不足也变得越来越明显。在线的新闻信息也存在着这样的问题。而且，目前可用的有哪些信誉好的足球投注网站引擎也效率低下。例如，不能满足用户根据他们指定的目录和时间片获取信息的功能，也不能根据需求的频率来提供在线的新闻信息。我们描述的“Ai-Times”系统（包括设计和实现），是一个基于网络的新闻检索系统，而它的目标就是精确地获取和组织网络上的新闻信息。同样，我们也详细地描述了爬虫模型，新闻提取模型和自动摘要模型。我们相信许多现有的新闻检索系统已经用到了这些技术中的一部分，但是却很少有关于关于这些技术的科学性研究。这篇论文的剩余部分是这样组织的：在第二部分，我们回顾了在新闻检索系统方面的相关工作；在第三部分，我们定义了关键的部分，并且描述了“Ai-Times”系统的运作，包括优化的网络爬虫算法，新闻内容提取模型和自动摘要模型；在第四部分，我们给出了实验结果；最后一个部分是我们的结论。相关工作新闻信息检索已经被大量的研究过了[1,2,3,4,5]。很多研究是在新闻信息检索的一般结构上完成的。例如，引用展现了一个利用关键字自动分类电视新闻文章的系统；引用描述了“THISL”，一个维护BBC广播和电视新闻记录文档的新闻信息检索系统；引用介绍了基于万维网信息检索和提取系统；引用展示了一个基于一些报纸（例如：Times）的现有数据库的新闻检索工具的设计。上述的论文对新闻信息检索的总体结构有很大的贡献。然而，他们中没有一个详细地描述了核心模块，例如爬虫模块，新闻提取模块和自动摘要模块。也存在着一些研究长串提取算法和网络爬虫算法的文章。例如，引用描述了一个将HTML文档自动转化成树形语义结构的算法，同时也展示了其隐含的意义。然而，当被用于新闻提取的时候，它并不能对所有种类的HTML页面进行合理的分析。引用介绍了怎样实现一个有效的网络爬虫。然而，当直接用于新闻检索的问题时，性能一般的网络爬虫的表现还是相对会差一点。 “Ai-Times”的结构和算法这个部分我们描述了“Ai-Times”的基本框架。同时，也详细地讲了爬虫模块，新闻提取模块和摘要模块的算法。 3.1 结构图1展示了“Ai-Times”系统的结构，包括几个经典的基于WEB信息检索系统的模块：网络爬虫，自动分类模块，索引引擎，有哪些信誉好的足球投注网站模块和自动摘要模块。“Ai-Times”的特殊在于：“Ai-Times”系统只需要非常少的人工操作，就能够自动提取出新闻的标题，文本内容和图片信息；同时，它也通过优化网络爬虫算法的方法，节省了爬取和更新的时间；当然，“Ai-Times”也能够提供新闻的摘要。我们会在3.2节到3.4节之间，详细地介绍网络爬虫模块，新闻提取模块和自动摘要模块。图1. “Ai-Times”新闻检索系统的结构 3.2 网络爬虫新闻信息检索系统的一个基础而重要的组件是网络爬虫，它能够自动地搜集网络文本。这个领域已经有了很多的研究，例如：Cobweb[6]就是一个典型的网络爬虫。“Ai-Times”专注于从一些预先定义的新闻网站上搜集信息，所以“Ai-Times”的网络爬虫算法不同于经典的网络爬虫算法。经典的网络爬虫算法已经在论文中讨论过了，但我们展示了一个使用与新闻网络爬虫的优化算法。下面给出一些定义，包括无价值的网络文本，包含新闻的网络文本，索引等：没有价值的网络文本：那些对新闻信息检索没有价值的网络文本，例如：广告网页。包含新闻的网络文本：主要指包括新闻文本、新闻图片和其他的一些媒体资源的网页。目录或者文本列表：主要指包含一些链接的网页，这些链接指向的则是包含新闻内容的或相关主题的网页；通常，主题就是新闻的题目。算法一：优化的爬虫算法 Begin Let I be a list of initial URLs of the news website; Let F be a queue; For each URL i in I Enqueue(i,F); End While F is not empty u=Dequeue(F); if u has not been processed Get (u); Case u’s type: Valueless web docume