基于领域本体信息抽取和知识获取系统.docVIP

基于领域本体信息抽取和知识获取系统.doc

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于领域本体信息抽取和知识获取系统

1 绪论 信息抽取(IE)是指从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如关于军用飞机的报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息。网上文本信息的大量增加导致这方面的研究得到高度重视。信息抽取是自然语言理解技术和实际应用相折衷的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析,不具备深入理解自然语言的能力。与自然语言理解不同,信息抽取一般不对文本作深入的全面分析,它的主要功能是根据预先设定的任务,抽取特定类型的信息。例如,一个用于关于军用飞机领域的信息抽取系统,只需提取诸如飞机种类、名称、相关性能及用途等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。 1.1 本文研究的背景及所做工作 为了提高检索的查全率和查准率,国内外的学者专家正在致力于研究基于语义的信息检索,并取得了一定的成果。为广大学者所公认的是在本体的基础上设计信息检索系统,实现信息的语义检索。本文所要做的工作就是对基于语义检索的检索系统后台服务方面进行研究。这次毕业设计所要完成的任务是对领域本体(军用飞机)有关的网页进行内容提取后的文本文档进行自动分析,提取其中的实词,筛选出一些能揭示文章主题的词,然后将这些词按照一定的组配关系提取出文章中相应的句子。最后将这些组配好的词和句子存入到数据库中,作为用户检索依据。 1.2 试验系统实现思路 基于领域本体的信息抽取和知识获取系统的目的是对本体有关的信息进行识别、筛选。按照一定语法规则将信息提取出来,保存到数据库中,供检索系统作为检索依据使用。通过对关键信息的抽取来初步实现对文中知识的获取。 1.2.1 实现步骤 图1.1 领域本体网页结构化信息抽取系统地实过程 图1.1为信息抽取实现步骤,下面按顺序对处理流程作简要说明。 (1)利用网页信息爬取程序将和本体领域相关的网页中的文字内容提取并保存到相应的文本文件中; (2)利用智能分词系统3GWS对文本进行分词,分词过程中导入了本体自定义词典。分词后的结果自动保存在JNI文件下的Test_result.txt中; (3)将分词前的文本文件以句子为单位进行切分,作为最后信息提取的材料; (4)提取出分词后的文件中的名词和动词,并分别对其进行词频统计; (5)对进行词频统计后的实词排序,筛选出文中出现次数高的词作为关键字; (6)将筛选出来的关键字按照“名词-动词-名词”的组配方式和切分出来的句子进行匹配,将匹配成功的词和句子存入到Mysql中作为检索系统的检索依据。 1.2.2 需要解决的问题 1)汉语切词和切词后次的识别与提取 信息抽取是建立在对文章进行篇章分析的基础上的,而篇章分析的基础又是句法分析,句法分析又离不开实体的识别。因此作为实体的单元词的切分自然是十分关键的。中文词切分的难点在于中文词缺少像英文词之间天然存在的空格一样的词间区分标志。 现代中文智能分词的两大主流技术是基于语言学规则的方法和基于语料库统计语言模型的方法,这两种方法各有利弊:基于规则的方法,其核心就是根据语言学原理和知识制定一系列共性规则和个性规则,以处理自动分词中所遇到的各种语言现象。规则的方法本质上是一种确定性的演绎推理方法,我们很难用一套规则去准确地预测真实文本中所出现的各种变异。而基于语料库统计学的方法主要的特点是利用从语料库中语义知识的统计信息来进行分词,语言处理的覆盖面更广,可实现高效实时的处理,缺点是它仅仅考虑了语言的上下文关系,忽略了语言的结构化特征,它所用的概率模型总会抑制小概率事件的发生,而且这种方法还会受到标记集、长距离搭配等限制。 各种分词软件分词后都会将结果以一定形式返回出来。所以词的提取首先要做的就是如何区分这些分词后的文件中的词。分词结果通常都会对每个词进行标注,并在词之间作区分标志。词的提取主要靠这些区分标志的识别来完成。 2)词和句子的匹配问题 常见的句子提取主要是通过关键字来完成。而本文所要采用的句子提取方式是在关键词方法的基础上加入了语义分析。即关键字按照一定的组配方式和原文中句子进行匹配,将符合这种要求的句子提取出来存入到数据库中。至于何种组配方式才是有意的,靠程序来自动识别是有一定难度的。本文所采用的词组配方式是“名词-动词-名词”的方式。因为一个大多数句子都符合“主语-谓语-宾语”的结构,而充当这些实体的词通常又分别是名词、动词、名词。当然这又面临一个问题,那就是那些“名词-动词-名词”组合才是有意义的。这个问题的解决就需要运用到本体方面的

您可能关注的文档

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档