- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
应用于网上图书域的deep web实体识别
摘 要
摘 要
建立 Deep Web 集成系统是目前的研究热点,但由于不同网站对同一实体的数据描
述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是
Deep Web 集成系统中一个至关重要的环节,它的目的就是去掉结果中的重复数据,即
降低数据的冗余度。本文主要对Deep Web 数据集成中的实体识别进行了深入的研究。
针对中文图书领域 Deep Web 实体识别,通过分析各个网站对图书信息的描述形式,
发现不同的网上书店对同一本书的描述通常存在着差别,而对不同图书的描述又可能非
常相近。由于上述情况的存在,本文提出了基于改进 Jaccard 系数和领域本体的 Deep Web
实体识别方法。在图书文本属性中,直接应用 Jaccard 系数进行计算,不能解决在文本
属性中出现的某一属性值非常相近而其他各个属性都完全相同的情况。本文在实体识别
的过程中对 Jaccard 系数进行了两点改进,一是为文本分词后的单词增加权重系数,二
是字符串匹配时的包含关系用系数 m 来确定。利用改进 Jaccard 系数法计算文本相似度,
能很好的解决上述情况。本文结合领域本体中的同义词库进行图书属性匹配,来解决作
者属性中存在中英文以及出版社属性中存在简写的情况。由于各个属性在识别时所占的
重要程度不同,所以本文利用层次分析法获得各个属性的权重,然后加权相加计算实体
相似度,从而整合重复实体。实验表明,该方法对中文图书领域的 DeepWeb 实体识别
具有较高的准确率。
关键词 Deep Web 实体识别 Jaccard系数 领域本体 层次分析法
I
Abstract
Abstract
The establishment of the deep web integration system is the current research focus,
however, different sites on the same entity data describing the existence of differences in the
expression form, lead to the having numerous redundant information, and put the user to
inconvenience in inquiring information of data. The entity identification is a vital link in the
deep web integration system, its purpose is to eliminate duplicate data results, that reduces
data redundancy. This article makes an in-depth research at the entity identification of deep
web data integration.
For the Chinese book field of the deep web entity recognition, by analyzing carefully
each site description of book information form, we find the form of the description for the
same book is often difference and the form of the description for the different book may be
very similar on the different online bookstores,. In light of the above, this p
您可能关注的文档
最近下载
知传链电子书
- 学习习近平总书记讲话精神,做好基础教育扶贫工作-[共4页]-215-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
- 信息动态-[共3页]-212-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
- “党建+思政+德育”育时代新人-[共4页]-208-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
- 新时代地方高校教育扶贫大有可为-[共6页]-202-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
- 习近平精准脱贫理论实施路径的思考与探索-[共9页]-193-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
- 立足教师教育特色,续写“援藏良驹”荣光-[共11页]-182-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
- 开放办学 内涵发展 文化引领 服务社会-[共13页]-169-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
- “三区三州”教育扶贫及返贫防控有章可循-[共9页]-160-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
- 教育帮扶:培育脱贫内生动力的路径选择-[共13页]-147-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
- 可持续生计视角下民族地区绿色减贫评估-[共23页]-124-中国教育发展与减贫研究(2020年第1辑/总第5辑)-社会科学文献出版社-李兴洲 白晓 张琦 主编.pdf
文档评论(0)