- 1、本文档共58页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
A Dissertation Submitted to Shanghai Jiao Tong University for the
Degree of Master
RESEARCH ON THE FUSION OF
MULTI-SOURCE INTERPRETATIONS BASED ON
CONCEPTUAL GRAPH
Author: Wang Suitao
Specialty: Computer Application Technology
Advisor: Prof. Ru-zhan Lu
School of Electronics and Electric Engineering
Shanghai Jiao Tong University
January, 2010
上海交通大学硕士学位论文
基于概念图模型的词汇多源释义的融合研究
摘 要
随着计算机的普及以及互联网的迅猛发展,网络上的各种信息呈
爆炸式的增长,传统的采用布尔检索模型的中文信息检索已经越来越
不能满足人们的需要,以汉语内涵语义分析作为着眼点的概念信息检
索成为目前中文信息检索的一个新的发展方向。基于概念图模型理论
的概念信息检索包括用户需求的概念分析、概念图的标引以及概念图
的匹配。其中概念图标引质量的好坏很大程度上影响着整个信息检索
系统的性能。为了提高概念图标引的准确率和对已有的概念图标引结
果提供校验,本文作者旨在构建一个知识完备、内容翔实、信息准确
的相关领域概念知识库,以期为进一步构建实体概念内涵关系网络、
改进和完善基于概念的信息检索提供了必要的基础资源。
为了构建这样的一个领域知识库,本文工作选择了知识丰富权威、
信息组织规范的机器可读词典作为知识库的源语料。然而以往的词典
知识抽取大都针对一部词典,忽略了多部词典内涵信息之间的相容性
和互补性。因此本文在已有工作的基础上尝试着提出一种机读词典内
涵属性信息抽取的改进方法,目标是使知识来源多样化并能够在保证
一定的知识覆盖面的同时达到可以接受的准确率,通过新的方法构建
合适的机读词典领域知识库不但可以为概念图的标引提供准确的知
识信息,也可以为用户的需求分析和需求与 snippet的标引提供校验,
具有很强的实际意义。
本文的研究是以概念图模型理论为基础的。本文的工作内容及贡
献主要如下:
1. 尝试了同时对《现代汉语词典》和《现代汉语规范词典》的
I
上海交通大学硕士学位论文
内涵属性信息抽取和融合,得到的以实体-内涵属性值关系对形式表
示的内涵属性信息尽量综合两部词典的知识,可以直接应用于概念图
的标引和校验,避免再对词典释义进行概念分析,提高标引的效率和
准确率。
2.尝试了采用模式聚类方法对抽取模式进行分类。通过对抽取
模式进行聚类并按内涵属性类型划分为不同的簇,再按照不同的簇从
词典中抽取出不同内涵属性类型的内涵属性值。这样就极大的降低了
识别抽取模式的内涵属性类型的人力消耗。
3. 尝试了将语义相似度计算引入到抽取模式的聚类中。通过计
算抽取模式的上下文之间的语义相似度可以降低模式聚类的错分率,
提高词典内涵属性值抽取的准确率。
本文的研究对多部词典词汇释义的内涵属性信息的抽取和融合
进行了探索,目标为概念图标引和概念信息检索提供一些基础资源和
方法研究的思路。
关键词: 概念图,机读词典,抽取模式,融合
II
上海交通大学硕士学位论文
Research on the Fusion of Multi-source Interpretations
Based on Conceptual Graph
ABSTRACT
With the rapid development of Internet and the explosive growth of
the information from the web, the CIR(Chinese Information Retrieval )
based on the boolean model cannot meet peoples needs and the
CCIR(Chinese Conceptual Information Retrieval) based on the Chinese
Semantic Analysis is a new development point. The CCIR based on the
CG (conceptual graph) includes the demand concept analysis、the CG
annotation and match and the CG annotation can
significantly affect the
performance
文档评论(0)