概念检索初探.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
概念检索初探

概 念 检 索 初 探 内容提要:概念检索是一种突破了机械式匹配局限于表面形式的缺陷,从词所表达的概念意义层次上来认识和处理用户的检索请求的检索方法。本文阐述了概念检索的含义、查找方法、特点,主要对照知识库的结构,分析了知识库构造所需解决的问题对概念检索进行了初步探讨,并结合Excite中的概念检索的应用,阐述了概念检索实现的机制及特点。全文分为四个部分:一、概念检索简介。二、概念检索知识库的构建。三、概念检索的查找方法。四、概念检索特点。正文约8000字,图4张,参考文献9篇。 在过去的几年中,Internet得到了飞速的发展,估计已发布的主页达到了几个亿以上,而且这个数字每天都在增加,整个网络正在堆积一个前所未有的超级信息数据库。目前,网上有哪些信誉好的足球投注网站引擎基本都采用基于关键词匹配的全文检索技术,发展到今天,已不可能从根本上实现检索结果质的飞跃。发展知识化,智能化的有哪些信誉好的足球投注网站引擎已经成为必然趋势。概念检索是关键技术之一。概念检索问题虽小,但具有一定的技术含量,本文限于篇幅,主要就概念检索的含义,知识库的构建,类型,特点方面进行论述。 一、概念检索简介 (一)概念检索含义 传统检索的核心是关键词的机械式匹配,只要发现某个网页或文献资源中含有这个关键字符,就将该网页或文献作为查询结果返回给用户,还可以结合布尔逻辑运算提供更为复杂的查询表达方式,但都是以关键字符匹配为基础的,由于参与匹配的是字符的外在形式,而不是它们所表达的概念,所以经常出现检索不全,答非所问的结果。 概念检索是一种突破了机械式匹配局限于表面形式的缺陷,从词所表达的概念意义层次上来认识和处理用户的检索请求的检索方法。 在查询有关计算机的信息时,输入“计算机”作为关键字,所得到的结果中一定含有“计算机”,但计算机实际上是头脑中形成的一个概念,“计算机”只是一种表达方式,“电脑”、“微机”都可以表达相同的概念,却由于词形上的差异不能满足关键词匹配的要求,不能在结果中出现。另外,概念描述具有随时间、地点、特定领域等因素的流动性,同一概念随着人们认识的不断深化,先前的称呼和现在的称呼可能有所不同,随着地域的改变,对同一概念的表达也会不同,而且不同领域有着自己的术语命名习惯,相互之间也会不同。 概念检索可以实现语义蕴涵扩展(如查询“动物”时,也能查到“猫”、“狗” )语义外延扩展(如查询“操作系统”时,也能查询“计算机软件”、“应用软件” )语义相关扩展(如查询“微软”时,也能查询“微软视窗”、“Windows NT” )。 (二)Excite的概念检索 概念检索尚处于探索阶段,在实践生活中,有不少有哪些信誉好的足球投注网站引擎使用了这一技术,其中,Excite在概念检索方面取得了比较明显的成就。 1993年斯坦福大学的6个学生创建了一个名叫Architext Software Corporation的公司,力图开发一种能在大型数据库中进行快速概念检索的有哪些信誉好的足球投注网站引擎,这就是Excite公司的前身。现在,Excite每天访问300万个网页,建立了一个收集有5500万网页最近两个星期的Usenet的新闻数据的全文索引。Excite还每天有哪些信誉好的足球投注网站300个新闻媒体,将有关内容组织到新闻文章索引数据库。而且,Excite还组织了一批专家精选6万多个Web站点,对它们进行仔细评价后分类组织进一个站点评价目录里。 Excite在处理检索词时使用了概念检索技术,认为词与词之间尽管不同,但逻辑上可能存在有一定的关系。例如一个词可能有多个同义变形词,例如computer和computation、computerization等;而且,一个词可能还有许多其他同义词和相关词,例如automobile与car、truck、van、bus甚至与Chrysler、General Motors等相关。因此Excite构建了一种词表,用一定方式表示词汇间的相互关系。在标引网页时,Excite不仅对这个网页进行全文索引,而且还将它与其他讨论相同或相关问题的网页联系起来。在检索时,Excite不但能检索出直接用输入的检索词标引的网页,也能检索出那些虽然没有包含检索词,但包含了与这些检索词相关的其他词汇的网页。例如,检索“intellectual property eight”, Excite不但检索出那些包含有上述词组的网页,而且还检索出包含“copy right”、“software piracy”等词组的网页。 二、概念检索知识库的构建 概念检索能够提供比传统检索更为智能化,知识化的服务,其根本基础在于拥有比传统检索更为丰富的知识,因此创建知识库是实现概念检索的首要和主要问题。 (一)知识库的定义 知识库是合理组织地关于某一特定领域的陈述型知识和过程型知识的集合。 (图1) 上图所示是知识库系统的体系结构,在概念检

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档