信息检索全文检索.ppt

  1. 1、本文档共116页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索全文检索

第四章 全文检索 全文检索概述 全文检索算法 中文分词 自动标引技术 全文检索系统 全文检索概念 全文检索:是指以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。 全文检索的发展过程 始于1959年,美国匹兹堡大学卫生法律中心。 我国在70年代末开始这一技术的研究 1989年 科技部立项 重庆维普 1996年 教育部主管 CNKI 1998年 国家“九五”重点科技攻关项目 万方数据 全文检索的特点 全文检索的研究内容 全文检索的优势 全文检索存在的问题 全文检索的研究内容 全文检索主要指研究对整个文档信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。 全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。 全文检索的关键是文档的索引,即如何将源文档中所有基本元素的信息以适当的形式记录到索引库中。 全文检索的优势 查全率高于一般的计算机检索系统 全文检索系统能实现计算机自动标引 检索界面友好 全文检索系统提供多种检索功能 全文检索系统更加灵活 全文检索存在的问题 对同一页面的重复检索 查准率还有待提高 数据更新已成为检索不容忽视的问题 检索结果过多 全文检索的发展趋势 智能检索 能根据用户提出的任意字、词,直接对文献资料的内容进行多角度、多侧面的检索,它的检索目标是自动根据用户的提示而有哪些信誉好的足球投注网站出相关的文档。 知识检索 能够在对蕴含在信息中的知识和知识关联进行分析的基础上,在知识处理技术和知识组织技术的支持下,实现基于语义理解的智能化查询。 基于XML的信息检索 基于XML标准的一种全文检索 全文检索算法 全文检索的本质是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。 算法:是为了解决某类问题而规定的一个有限长的操作序列。 简单匹配全文检索 单汉字索引全文检索 单汉字后控词表全文检索 简单匹配全文检索算法 ①检索词串S的首字符S[1]与全文库逐字匹配,匹配成功则记录检索词S[1]在全文中的位置P[j],并转到②,反之则返回检索失败。 ②取检索词的下一个字符S[i]继续与全文库中的位置为P[j]+2的字符匹配,匹配成功则重复②,直到S遍历一次,转到④;反之,转到③。 ③取检索词首字符S[1]与全文从位置P[j]+i*2开始匹配,匹配成功则记录S[1]在全文中的位置P[j]并返回②;反之返回检索失败。 ④遍历全文一次,当全文中有连续的字串与之匹配,返回检索成功;否则返回检索失败。 ⑤编写检索结果文档。 简单匹配全文检索 检索词串:信息检索 文献标题记录: R1:信息检索导论 R2:网络信息检索新论 R3:信息组织与检索 R4:信息资源管理 R5:信息系统项目管理 简单匹配全文检索的优点 简单匹配全文检索算法描述简单。 程序实现容易。 简化了用户操作。 简单匹配全文检索系统便于维护。 简单匹配全文检索的缺点 查全率难以控制 查准率难以控制 检索效率低下 基于单汉字的全文索引 索引实际上是一种排序技术,但它不改变数据表中数据的物理顺序,而是另外建立一个记录号列表。与通常图书的目录相同。 单汉字与全文库中文献记录的对应关系 单汉字索引全文检索算法 ①检索词串S的长度为m,取S的首字符S[1]与单字索引库匹配,匹配成功记录P1j地址集合D1,转入步骤②,匹配失败返回检索失败。 ②取检索词串的下一个字符S[i]继续与单字索引库匹配,匹配成功记录Pij地址集合Di,反之返回检索失败。 ③重复步骤②,直到检索词串S中的每一个字都遍历一次。 ④对D1到Dm进行集合运算,相同文献记录号的归为一个集合Rk。 ⑤对集合Rk进行位置运算,测试检索字串在同一文献中的起始位置的连续性,若连续则记录文献记录号,反之,不予记录。 ⑥编写检索结果文档。 单汉字索引全文检索 检索词串:信息检索 单汉字索引全文检索算法的优点 单汉字索引全文检索无需切分词语,节约了文献结构优化的时间。 计算机自动化处理的程度极高。 该算法适用的学科领域比较宽广。 该算法处理新词的能力较强。 单汉字索引全文检索算法的缺点 查准率低 查全率难以控制 难以对检索结果进行缩检和扩检 降低了检索速度 检索者智力负担较重 无实际含义的虚字和分辨力极低的汉字占了较多的单字索引库的空间 单汉字后控词表全文检索算法 ①用检索词与后控词表匹配,系统会利用后控词表自动把同义词、相关词、上位词和下位词纳入检索式,并用逻辑“或”、“与”彼此连接在一起,进行扩检和缩检,从而提高查全率。设经过后控词表处理后的检索词串由n个检索词构成。 ②设检索词串

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档