数字图书馆中基于机器学习的信息抽取及跨库检索系统设计.docx

下载文档 降价啦

2
0
约5.04万字
约 64页
2018-05-25 发布于贵州
举报
版权申诉
保障服务

数字图书馆中基于机器学习的信息抽取及跨库检索系统设计.docx

1、本文档共64页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数字图书馆中基于机器学习的信息抽取及跨库检索系统设计

摘要2ABSTRACT4第一章绪论51.1 数字图书馆中跨库查询系统概述51.2 信息抽取和关键词提取的研究背景81.2.1 信息抽取的研究背景81.2.2 关键词提取的研究背景81.3 网页信息抽取的研究现状81.4 关键词提取的国内外研究现状111.5 本文的主要工作131.5.1基于学习的信息抽取技术131.5.2 文章摘要中关键词的提取131.6 本论文的组织结构13第二章信息抽取的相关技术和标准152.1 信息抽取系统体系结构152.2 信息抽取中的一些关键技术152.2.1 命名实体识别152.2.2 句法分析172.2.3 篇章分析与推理172.2.4 知识获取182.3 HTML（Hyper Text Markup Language）182.4 XML192.4.1 XML的产生192.4.2 XML语法202.4.3 元素（Element）与标记（Tag）212.4.4 属性（Attribute）212.4.5 XML模式222.5 DOM (Document Object Model)222.6 XPath242.7 决策树算法262.7.1 决策树定义262.7.2 决策树算法26第三章网页信息抽取平台的设计与实现283.1 半结构化数据283.1.1 半结构化数据出现的原因283.1.2 半结构化数据的特点283.1.3 现有的半结构化Web页面分类293.2 网页信息抽取难点293.3 网页信息抽取平台的目标313.4 抽取模板313.4.1 抽取模板的作用313.4.2 模板在信息抽取流程中的位置313.4.3 基于路径学习的模板构造方法323.5 利用模板抽取信息343.6 模板抽取的实验结果353.7 同时应用“网页结构和内容”进行信息抽取技术和实验结果363.7.1 信息抽取的目标――网上问答对信息的抽取背景363.7.2 信息抽取模型373.7.3 利用一阶马尔可夫链修正结果的方法383.7.4 实验结果40第四章关键词抽取平台的设计与实现424.1 关键词的概念424.1.1 关键词的定义424.1.2 关键词的定义424.2 关键词抽取需要解决的问题434.3 关键词抽取模型454.3.1 候选词的选择454.3.2特征的提取464.3.3 机器学习方法—决策树C4.5474.3.4关键词的抽取474.4.模型的实验结果474.4.1 数据集474.4.2 评判标准474.4.3 实验结果48第五章跨库检索系统495.1 设计目标495.2 设计原理495.3 脱机跨库检索与联机跨库检索的比较505.3.1 联机跨库检索的流程505.3.2 脱机跨库检索与联机跨库检索的比较50第六章总结与展望526.1 总结526.2 本文主要创新之处536.3 未来工作536.3.1 信息抽取方面536.3.2脱机跨库检索系统54参考文献55致谢61攻读硕士学位期间发表论文与参加项目62摘要随着Internet的迅猛发展，人们对高效率的信息获取技术的需要越来越迫切，对海量信息进行采集、分析、整理，得到高质量的分门别类的结构化信息，方便用户快捷地浏览查询，是极具现实意义的重大课题。为适应广大师生教学和研究的需要，中科大图书馆先后购买了90多种网络数据库，涉及的门类非常齐全，为我校建设一流研究型大学打下了坚实的基础。由于各个数据库的查询界面以及查询结果的返回界面各异；各个数据库中信息不能统一起来为用户提供更深入的服务，我们设计了脱机的跨库检索系统来解决以上问题。脱机检索系统的最终目的是建立一个脱机的跨库检索系统，实现查询界面和结果界面的统一化，同时深入挖掘文章的信息，为用户提供更深入的服务。本文所研究的就是该跨库检索系统中最重要的两个关键点：文章信息抽取和关键词提取技术。针对图书馆各网络数据库文章信息的显示结果都是同构的网页这一特征。本文提出了一种基于学习的模板构造方法，这种基于学习的模板构造方法只需要人工标注两个网页即可生成模板，节省了构造者的时间并且构造出的模板非常准确。同时本文还提出了一种把网页结构信息和网页内容结合起来来实现互联网上问答对信息抽取的方法。为了解决有的文章在网络数据库中并没有给出我们关键词这个问题。本文提出了一种在文章的摘要中抽取关键词的方法。关键词：信息抽取关键词抽取跨库检索系统 DOM树ABSTRACTWith the rapid development of Internet, the need of high efficient information-capture techniques has become more and more impendency. It is a very meaningful problem to gain、analyse or