网上信息抽取技术纵览.doc

下载文档 降价啦

3
0
约3.02万字
约 19页
2017-04-18 发布于天津
举报
版权申诉
保障服务

网上信息抽取技术纵览.doc

1、本文档共19页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网上信息抽取技术纵览.doc

网上信息抽取技术纵览 Line Eikvil 原著（1999.7）陈鸿标译 (2003.3) 第一章导论信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。由于网上的信息载体主要是文本，所以，信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库！信息抽取技术是近十年来发展起来的新领域，遇到许多新的挑战。本文首先在第二章简要介绍信息抽取技术，第三章介绍网页分装器(wrapper)的开发，第四章介绍已经开发出来的网站信息抽取系统，第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。第二章信息抽取技术概述信息抽取原来的目标是从自然语言文档中找到特定的信息，是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本，又能处理自由式文本（如新闻报道）。IE系统中的关键组成部分是一系列的抽取规则或模式，其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别；第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。第2.1.节 IR和IE IR的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中翻阅自己所要的信息。就其目的而言，IR和IE的不同可表达如下：IR从文档库中检索相关的文档，而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具[24]。 IR和IE不单在目的上不同，而且使用的技术路线也不同。部分原因是因为其目的差异，另外还因为它们的发展历史不同。多数IE的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。而IR则更多地受到信息理论、概率理论和统计学的影响[24]。第2.2.节 IE的历史自动信息检索已是一个成熟的学科，其历史与文档数据库的历史一样长。但自动信息抽取技术则是近十年来发展起来的。有两个因素对其发展有重要的影响：一是在线和离线文本数量的几何级增加，另一是“消息理解研讨会”（MUC）近十几年来对该领域的关注和推动。 IE的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好，向其他新领域移植的性能却很差[53]。八十年代以来，美国政府一直支持MUC对信息抽取技术进行评测。各届MUC吸引了许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加单位根据预定的知识领域，开发一个信息抽取系统，然后用该系统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。研讨会的目的是探求IE系统的量化评价体系。在此之前，评价这些系统的方法没有章法可循，测试也通常在训练集上进行。MUC首次进行了大规模的自然语言处理系统的评测。如何评价信息抽取系统由此变成重要的问题，评分标准也随之制定出来。各届研讨会的测试主题各式各样，包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更迭。过去五、六年，IE研究成果丰硕。英语和日语姓名识别的成功率达到了人类专家的水平。通过MUC用现有的技术水平，我们已有能力建造全自动的 IE系统。在有些任务方面的性能达到人类专家的水平[53]。不过自1993年以来，每届最高组别的有些任务，其成绩一直没有提高（但要记住MUC的任务一届比一届复杂）。一个显著的进步是，越来越多的机构可以完成最高组别的任务。这要归公于技术的