第4节 信息检索技术.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 信息检索技术 内容提要 倒排文档检索 加权检索 全文检索 4.1 倒排文档检索 建立索引的过程 英文词根还原(Stemming) 进行词根还原:stop/stops/stopping/stopped??stop 好处:减少词典量;坏处:按词形查不到,词根还原还可能出现错误 不进行词根还原: Stopped??sto+ppe+d 好处:支持词形查询;坏处:增加词典量 停用词消除 停用词(stop words)是指那些出现频率高但是无重要意义,通常不会作为查询词出现的词,如“的”、“地”、“得”、“都”、“是”等等 消除:通常是通过查表的方式去除,去除的好处----大大较少索引量,坏处----有些平时的停用词在某些上下文可能有意义 保留:索引空间很大 倒排索引上的布尔检索 查询:中国 AND 文化 查找Dictionary,定位中国; 读取对应的postings. 查找Dictionary,定位文化; 读取对应的postings. “Merge” 合并(AND)两个postings: 合并 Lists的合并算法 索引压缩 理论上,(全文)索引的大小和原始文件相当,因为每个词的每次出现都必须在posting list中记录。 需不需要压缩? 要压缩:索引大小通常和原始文本大小相当,不压缩可能会耗费大量存储开销 不压缩:硬盘很便宜,数据量不是特别大,而且不需要解压缩的消耗 倒排索引的更新 情况一:出现了新的词,则需要修改词典结构,在词典中增加词条。 情况二:出现了新的文档,则在相应的词条下增加posting list。 情况三:某些文档不复存在,则在相应的位置进行标记,等积累到一定时期进行一次性操作。 词汇表的组织 顺序排序数组:采用字典序,查找采用二分法。空间消耗小,查找较快,但是插入删除麻烦。 二叉有哪些信誉好的足球投注网站树、B树、Trie树等。 Hash表:通过Hash函数直接把词映射到地址,空间消耗和Hash函数设计有关。较快,插入删除容易。 4.2 加权检索 加权检索根据每个词在检索要求中的重要程度不同,分别给予一定的数值(权值)加以区别,同时利用给出的检索命中界限值(阈值,Threshold)限定检索结果的输出。 加权检索是布尔逻辑检索的一种扩充,把量化思想引入定性检索中。 加权检索分为标引加权和检索加权两种类型。 4.2.1 检索词赋权检索 对每一检索词给定一权值,代表其重要性。检索时,对存在的检索词的记录计算其权值总和。当权值总和大于阈值时,则认为命中。 最简单、最容易实现的加权检索系统。 举例 一个企业管理者为了改进企业管理模式,接受新的管理理念,提高企业的竞争力,希望获取知识管理、竞争情报、企业文化方面的文献资料,用加权法列出的提问式如下: W = 知识管理(4)竞争情报(2)企业文化(1) 检索词赋权检索的优缺点 检索词赋权检索的优点: 明确了检索词在检索中的重要程度; 通过提高或降低阈值来扩大和缩小检索输出的范围; 检索结果按符合检索需求的重要程度顺序排列。 检索词赋权检索的缺点: 加权法提问式表达不如逻辑式直观; 权值的确定较为困难。 4.2.2 加权标引 加权标引是指在对文献进行标引时,根据每个标引词在文献中的重要程度不同,为它们附上不同的权值,检索时通过对检索词的标引权值相加来筛选命中记录。 加权标引 在进行加权标引时,对反映文献主要内容的标引词给予高权值,反映文献次要内容的标引词给予较低的权值。 词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加权将失去意义。 简单词频加权 简单词频加权检索:指检索时累计检索词在记录中出现的次数来决定记录的权值。 最大缺点就是不论文章长短、词频高低都采用的是统一的词频标准。 相对词频加权检索 将每一个检索词在本文中频率和在整个数据库中的频率综合考虑,进行加权检索的方法。 文内频率=指定词在本文中的频次/该文本词汇总频次 文外频率=指定词在本文中的频次/该词在整个数据库(所有文献)中总次数 文内频率解决了短文章中词频过低的问题,文外频率解决了新词、专用词的低频问题。 4.2.3 标引加权的检索过程 检索时给出检索词和检索阈值,对满足检索阈值的检索结果按其权值之和从大到小输出来筛选命中记录。 在实际的人工标引中尚未见有加权标引的系统。 在计算机自动标引的系统中,可以方便而有效的采用加权标引技术。 标引加权检索阈值的设定 在检索中,阈值有两种设置方法: 为每个检索词制定一个阈值,避免了次要内容被检出; 给总的检索结果指定一个阈值,保证了命中文献的综合相关度。 4.3 全文检索技术 全文检索,即检索的数据源、检索的对象、检索匹配技术、检索结果都是全文信息的检索。 全文检索有两种实现方式: 对全文编索引; 不对全文进行任何加工处理,只

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档