基于概念图模型词汇多源释义融合的研究.doc

基于概念图模型词汇多源释义融合的研究.doc

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
A Dissertation Submitted to Shanghai Jiao Tong University for the Degree of Master RESEARCH ON THE FUSION OF MULTI-SOURCE INTERPRETATIONS BASED ON CONCEPTUAL GRAPH Author: Wang Suitao Specialty: Computer Application Technology Advisor: Prof. Ru-zhan Lu School of Electronics and Electric Engineering Shanghai Jiao Tong University January, 2010 上海交通大学硕士学位论文 基于概念图模型的词汇多源释义的融合研究 摘 要 随着计算机的普及以及互联网的迅猛发展,网络上的各种信息呈 爆炸式的增长,传统的采用布尔检索模型的中文信息检索已经越来越 不能满足人们的需要,以汉语内涵语义分析作为着眼点的概念信息检 索成为目前中文信息检索的一个新的发展方向。基于概念图模型理论 的概念信息检索包括用户需求的概念分析、概念图的标引以及概念图 的匹配。其中概念图标引质量的好坏很大程度上影响着整个信息检索 系统的性能。为了提高概念图标引的准确率和对已有的概念图标引结 果提供校验,本文作者旨在构建一个知识完备、内容翔实、信息准确 的相关领域概念知识库,以期为进一步构建实体概念内涵关系网络、 改进和完善基于概念的信息检索提供了必要的基础资源。 为了构建这样的一个领域知识库,本文工作选择了知识丰富权威、 信息组织规范的机器可读词典作为知识库的源语料。然而以往的词典 知识抽取大都针对一部词典,忽略了多部词典内涵信息之间的相容性 和互补性。因此本文在已有工作的基础上尝试着提出一种机读词典内 涵属性信息抽取的改进方法,目标是使知识来源多样化并能够在保证 一定的知识覆盖面的同时达到可以接受的准确率,通过新的方法构建 合适的机读词典领域知识库不但可以为概念图的标引提供准确的知 识信息,也可以为用户的需求分析和需求与 snippet的标引提供校验, 具有很强的实际意义。 本文的研究是以概念图模型理论为基础的。本文的工作内容及贡 献主要如下: 1. 尝试了同时对《现代汉语词典》和《现代汉语规范词典》的 I 上海交通大学硕士学位论文 内涵属性信息抽取和融合,得到的以实体-内涵属性值关系对形式表 示的内涵属性信息尽量综合两部词典的知识,可以直接应用于概念图 的标引和校验,避免再对词典释义进行概念分析,提高标引的效率和 准确率。 2.尝试了采用模式聚类方法对抽取模式进行分类。通过对抽取 模式进行聚类并按内涵属性类型划分为不同的簇,再按照不同的簇从 词典中抽取出不同内涵属性类型的内涵属性值。这样就极大的降低了 识别抽取模式的内涵属性类型的人力消耗。 3. 尝试了将语义相似度计算引入到抽取模式的聚类中。通过计 算抽取模式的上下文之间的语义相似度可以降低模式聚类的错分率, 提高词典内涵属性值抽取的准确率。 本文的研究对多部词典词汇释义的内涵属性信息的抽取和融合 进行了探索,目标为概念图标引和概念信息检索提供一些基础资源和 方法研究的思路。 关键词: 概念图,机读词典,抽取模式,融合 II 上海交通大学硕士学位论文 Research on the Fusion of Multi-source Interpretations Based on Conceptual Graph ABSTRACT With the rapid development of Internet and the explosive growth of the information from the web, the CIR(Chinese Information Retrieval ) based on the boolean model cannot meet peoples needs and the CCIR(Chinese Conceptual Information Retrieval) based on the Chinese Semantic Analysis is a new development point. The CCIR based on the CG (conceptual graph) includes the demand concept analysis、the CG annotation and match and the CG annotation can significantly affect the performance

文档评论(0)

ww88606 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档