
应用于网上图书域的deep web实体识别.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
应用于网上图书域的deep web实体识别

摘 要 摘 要 建立 Deep Web 集成系统是目前的研究热点,但由于不同网站对同一实体的数据描 述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是 Deep Web 集成系统中一个至关重要的环节,它的目的就是去掉结果中的重复数据,即 降低数据的冗余度。本文主要对Deep Web 数据集成中的实体识别进行了深入的研究。 针对中文图书领域 Deep Web 实体识别,通过分析各个网站对图书信息的描述形式, 发现不同的网上书店对同一本书的描述通常存在着差别,而对不同图书的描述又可能非 常相近。由于上述情况的存在,本文提出了基于改进 Jaccard 系数和领域本体的 Deep Web 实体识别方法。在图书文本属性中,直接应用 Jaccard 系数进行计算,不能解决在文本 属性中出现的某一属性值非常相近而其他各个属性都完全相同的情况。本文在实体识别 的过程中对 Jaccard 系数进行了两点改进,一是为文本分词后的单词增加权重系数,二 是字符串匹配时的包含关系用系数 m 来确定。利用改进 Jaccard 系数法计算文本相似度, 能很好的解决上述情况。本文结合领域本体中的同义词库进行图书属性匹配,来解决作 者属性中存在中英文以及出版社属性中存在简写的情况。由于各个属性在识别时所占的 重要程度不同,所以本文利用层次分析法获得各个属性的权重,然后加权相加计算实体 相似度,从而整合重复实体。实验表明,该方法对中文图书领域的 DeepWeb 实体识别 具有较高的准确率。 关键词 Deep Web 实体识别 Jaccard系数 领域本体 层次分析法 I Abstract Abstract The establishment of the deep web integration system is the current research focus, however, different sites on the same entity data describing the existence of differences in the expression form, lead to the having numerous redundant information, and put the user to inconvenience in inquiring information of data. The entity identification is a vital link in the deep web integration system, its purpose is to eliminate duplicate data results, that reduces data redundancy. This article makes an in-depth research at the entity identification of deep web data integration. For the Chinese book field of the deep web entity recognition, by analyzing carefully each site description of book information form, we find the form of the description for the same book is often difference and the form of the description for the different book may be very similar on the different online bookstores,. In light of the above, this p



