知识库单学术内容检索研究.docxVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

知识库单学术内容检索研究

?

?

摘要:搭建单学术内语义分析知识库,完善了基于表示文字匹配的机械对比检索系统的结构,来了解使用者真实检索目的。此知识库的单学术内容检索模型,改善了检索性能,提升检索效率。

关键词:检索;知识库;单学术内容

如今,常用的检索技术日趋成熟,基本是利用标识文字机械对比来实现检索。一般会出现如下问题:检索出的信息关联性低,使用者需要二次人工筛选结果来获取信息;未检索出需要的高权重结果;检索内容与所需内容完全无关。针对以上问题,本文设计了面向单学术内的单学术内容检索模型,把检索的文本信息延展至词意领域,了解使用者的检索目的,提高检索的效率。

1单学术内容检索现状

单学术内容检索将使用者的访问信息重新在web上规划,近年来该检索方式的研发工作大体基于知识库内单学术内容检索、机械文本加工和概念相似对比等方法。Voorhees使用检索内容中的相似性词汇的子类内容来实现检索内容的扩展;Fernández利用查询的文本信息来划分层次,用计算出的语义相似度进行文本标记,再重新建立索引,实现优化内容的检索。国内相关研究,例如《基于检索内容的信息检索模型》在内容识别的基础上搭建了多主体信息检索服务器。机械文本加工和概念相似对比的方法是另外两种常用的语义检索方法。分词、短语识别和词义消歧是自然语言处理中最为主要的技术。

2知识库的内容检索

2.1检索内容知识库

检索内容作为一种概念建模的手段,能够利用检索内容节点中概念之间的关系描述了解词汇含义,同时,也可以进行逻辑推理。域知识库内容检索是利用抽象指定域中的概念和相关性为域信息资源构建高效的组织框架。基于检索内容技术构建域知识库,分析其逻辑内容,我们就可以深挖模糊信息和引申含义之间的词汇关联。将检索内容引入知识库中,进行信息检索,再将推理机制扩展到使用者查询,把使用者从语义层面键入的查询语言推理理解,挖掘使用者的真实检索目的,消除文本信息中内容的模糊性描述,并获得使用者获取信息的智能单学术内容检索所需的有效信息。

本文使用检索内容编辑工具Protege手动构建检索内容。提取特定域的概念来设计检索内容模型,编辑检索内容中的元素,包括类,属性和实例。概念之间的主要关系是“同质的”和“较低的”。使用Jena对构造的域检索内容执行相应的推理操作。

2.2单学术内容检索模型设计

本文设计的单学术内容检索模

类型,主要由四个关键模块组成:查询自然语言预分析处理、检索内容知识推理、语料库文档预处理和检索结果排序,检索内容知识库单学术内容检索模型如图1所示。

2.2.1查询自然语言预分析处理

查询自然语言预分析处理模块接收使用者输入的自然语言,使用ICTCLAS中文分词系统对使用者查询语句请求进行分段,并对查询语句中的停用词,特殊字符和无意义词进行过滤,分解使用者查询语句。独立词汇的集合。2.2.2检索内容知识推理具有语义推理的能力是基于检索内容知识库的单学术内容检索系统与基于关键词的检索系统相比的最大优势,也是单学术内容检索系统模型的核心。推理系统通过将推理规则和策略写入程序代码来实现语义自动推理。推理系统在早期阶段接收查询自然语言预分析处理的关键词,并结合检索内容知识库中的推理策略实现语义推理。在本文的检索模型中,由于已建立的概念之间的主要关系是“同质的”和“较低的”,本文的检索模型只能实现这两种逻辑关系的推理。在推理引擎语义推断出原始有哪些信誉好的足球投注网站关键词之后,可以将检索内容知识库中的概念相关类,对应实例和关系添加到有哪些信誉好的足球投注网站关键词中,并将原始查询扩展并提交给有哪些信誉好的足球投注网站引擎进行检索。

2.2.3语料文档前期处理

建立语义索引库是预处理语料库文档的最终目标。本文使用Web爬网程序Crawler从Internet收集近10,000个Web文档,并将它们作为测试语料库存储在有哪些信誉好的足球投注网站信息库中。过程如下:预处理Web文档,然后删除HTML标记,停用单词等,并提取存储的文档。文本中的文字信息;分割文本信息,并将特征信息提取为特征词;然后将特征词与知识库中的概念节点进行比较,并将概念的同义词添加到文档概念集中,以形成文档概念集;使用TF-IDF算法计算文档概念集的权重,并且将特定阈值内的概念用作文档的语义向量;构造倒排索引,其中概念列表存储在存储器中,倒排列表和文档集存储在盘中。2.2.4对有哪些信誉好的足球投注网站结果进行排序

检索系统检索出来的大量结果,使用者通常只关注排在前面的那些检索结果,因此,如何对使用者最关注的返回结果进行排序与检索系统的性能有关。在本文中,查询和文档之间的相关性(即文档得分)用于对结果进行排序,TF-IDF特征权重计算方法用于计算文档得分。核心思想是查询和文档中存在不同的概念。重要程度不同,因此如何为查询中的概念分配权重是文档分数计算的基础。最终进入检索系统的查询向量由使用者的原始查询概念和推理系统推

文档评论(0)

134****1250 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档