- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于本体的自然语言检索研究
?
?
论文导读:而自然语言检索具有方便、快捷、易于操作的特点,成为信息检索领域一大发展趋势。从2001年开始,一些专家、学者开始把本体理论应用到自然语言检索领域。目前关于本体构建的方法还没有一个明确而标准的体系构建方法[5]。
关键词:自然语言检索,本体,本体构建
?
随着计算机、网络与信息技术的迅猛发展,信息的产生、发布速度日新月异,使得现在的Internet和Web上具有海量的信息资源。而随着计算机和网络的普及,人们的信息意识也在不断增强。各行各业的人们都深刻意识到信息的重要性,对信息的需求也越来越迫切,信息用户群从原来的只有少数专业人员范围发展到了全民范围。面对庞大的网络信息资源如何进行有效地组织,并提供快捷、方便的检索服务,已经成为信息检索领域亟待解决的问题。常规的全文检索方式虽然可以保证查全率,但是查准率却大大降低,而基于数据库的检索方法,其性能取决于所使用的字段标识方法和用户对方法的理解,对于大多数没有经过检索培训的用户来讲,操作起来费时费力,具有很大的局限性,也不能满足用户在语义上和知识上的需求。而自然语言检索具有方便、快捷、易于操作的特点,成为信息检索领域一大发展趋势。现在自然语言检索系统可望扫除人与计算机系统的接口障碍,只是对自然语言如何进行分解取得准确的语义问题还有待更深入地研究[1]。从2001年开始,一些专家、学者开始把本体理论应用到自然语言检索领域。本体具有能通过概念之间的关系来表达概念语义的能力,因而在信息检索,特别是在基于知识的检索中支持知识上、语义上的匹配,对检索系统的查全率与查准率有更好的保障。本体的最大优势还在于本体将某个或多个特定领域的概念和术语规范化,提供了人机交流的机制,使得机器可以理解语义,达成机器与机器之间、机器与人之间的语义互操作。要实现对Web上的知识信息的重用与共享,充分挖掘语义Web的潜力,就需要大规模采用基于本体的方法来组织信息资源。本文首先介绍了自然语言检索的优缺点及本体的概念,然后论述了自然语言检索与本体论结合的优势,最后提出了开发本体的方法。
1自然语言检索的优缺点
1.1自然语言检索的优点
使用自然语言检索不受繁琐的检索规则限制,检索标识从源文的题名、文摘和正文中提取,符合大多数用户的检索习惯,用户使用自然语言描述他们的信息需求,用能准确反映自己意图的词语作为检索标识[2]。自然语言检索的优点可归纳为三个方面:
(1)自然语言检索不受词表限制,可以输入新生词汇,更有效地跟踪新事物的发展。
(2)自然语言检索以源文的内容作为检索标识,符合大多数用户的检索习惯,不受专业及使用检索系统能力的限制,能更快、更准确地命中检索目标。
(3)自然语言检索采用从文献中抽取标引词的方式,既加快了标引速度,又减少了文献内容的失真度,可以实现各数据库的标引和检索成果共享。
1.2自然语言检索的缺点
自然语言检索在情报检索语言中毋庸置疑是最为方便的一种检索语言,但是它还是存在很多问题,正是这些问题的存在使它不能完全取代情报检索语言。自然语言检索的缺点可归纳为两个方面:
(1)自然语言检索在选词上没有经过严格筛选,词汇繁杂。对同义词、近义词、多义词、相关词没有进行规范和统一,词间缺乏有机联系,从而影响查全率和查准率。
(2)自然语言检索本身具有模糊性、随意性,在机检过程中会占用大量存贮空间,影响查询匹配的速度。
要获得满意的检索效果,必须对自然语言检索做进一步的处理,也就是进行概念控制。由于本体可以通过对概念、术语及其相互关系的规范化描述,刻画出某一领域的基本知识体系和描述语言,将检索过程由传统的关键词的匹配转化为语义上的匹配,本体的引入无疑给自然语言检索技术的发展带来了新的契机。
2本体的定义
本体(Ontology)最早是一个哲学的概念,原意指的是“客观存在的一个系统的解释和说明,客观现实的一个抽象本质”。本体在计算机领域的定义经历了一个漫长的演化过程[3]。在人工智能界,最早给出本体定义的是Neches等人,他们将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。1993年,Gruber给出了本体的一个最为流行的定义,即“本体是概念模型的明确的规范说明”。后来,Borst在此基础上,给出了本体的另外一种定义:“本体是共享概念模型的形式化规范说明”。Studer等人在对本体做了深入研究后,扩展了Gruber的定义,认为“本体是共享概念模型的明确的形式化规范说明”。这一定义已被大多数人认同,该定义包含了四层含义:
1)概念模型(Conceptualization),即本体是通过抽象客观世界的概念而得到的模型,该模式定义了概念间的相关关系;
2)明确性(Explicit
文档评论(0)