- 1、本文档共70页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
随着计算机和互联网的广泛应用,人类正处在历史上前所未有的信息爆炸
时代。如何对互联网上的大量信息进行归纳总结,去伪存真,获取领域内有意
义的新知识,成为亟待研究与解决的问题。本体作为一切存在的实体,是知识
发现与知识表示的基本工具。因此,本体学习与扩展使从互联网上获取有意义
的知识成为可能。本文提出了面向文本的领域本体扩展框架,本框架应用了一
系列基于统计的自然语言处理方法,面向中文文本展开领域本体扩展。
本文着眼于中文领域本体的自动扩展,提出了一种从大量中文语料库中进
行中文自然语言处理,挖掘语义信息,并将这种语义信息做进一步的深入挖掘
与归纳,扩展领域原有本体的属性与关系或发现领域内新本体的本体扩展方法。
解决了目前本体扩展自动化程度低,关系简单的问题。
本面向文本的领域本体扩展框架主要分为三个过程:文本预处理、领域概
念抽取和领域概念关系抽取。在文本预处理过程中,对经聚焦爬虫和正则表达
式筛选的互联网上的海量文本语料库进行中文 自动分词,利用词汇、文本基本
信息构建词汇-文本矩阵;在概念抽取过程中,首先对词汇-文本矩阵进行量化,
其次应用潜在语义空间技术将词汇-文本矩阵映射为词汇-语义矩阵,最后对词汇
-语义矩阵进行聚类算法,抽取领域概念;在概念关系抽取过程中,对聚类结果
进行深入分析,经专家修正抽取结果中有效的关系,完成本体的扩展过程。
本文提出的本体扩展框架是从中文语料库中挖掘领域本体、丰富领域本体
关系的探究。本框架具有数据资源丰富、适用范围广泛、自动化程度高等特点,
对构建大型本体和丰富现有本体具有积极的意义。
关键词:本体扩展,自然语言处理,聚类算法
Abstract
With the wide application of information technology, mankind is at an unprecedented
era of information explosion. There is an urgent research and unsolved problem that
how to summarize the wealthy information on the Internet and how to eliminate the
false and retain the true and find the new meaningful knowledge. Ontology, which is
an entity for all exist, is the basic tool for knowledge discovery and knowledge
representation. Therefore, it is possible to obtain meaningful knowledge on the
Internet by Ontology learn and extension. In this paper, the writer proposes a
document-oriented domain ontology extension framework which applies a series of
natural language processing based on the statistical methods for Chinese documents.
This paper focuses on the technology for the automatic Chinese domain
Ontology expansion. The writer presents a new method that mine semantic
information to make further summarization and induction by Chinese natural
language processing fro
文档评论(0)