- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机信息检索课程教案
1.5.3 计算机信息检索的基本技术与方法
[学习重点] 熟练掌握计算机信息检索的基本技术
1.5.3.1 计算机文献信息检索的技术
查全率(Recall ratio)=[检出相关文献量/文献库内相关文献的总量 ]×100%
查准率(Precision ratio)=[检出相关文献量/检出文献总量]×100%
1.布尔逻辑检索(逻辑组配检索)(Boolean logical)
指采用布尔逻辑表达式来表达用户的检索要求,并通过一定的算法和实现手段进行检索的过程。
布尔逻辑表达式是采用布尔运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”等)来连接运算检索词,以及表示运算优先级的括号组成的一种表达检索要求的一种算式,简称提问逻辑式。
逻辑与“ AND ”运算符,也可用“*”表示,用来组配不同的概念的检索词。是一种概念相交和限定关系的组配。例如:“A AND B”或“A * B”
其含义是:检出的信息中必须同时含有“A”和“B”两个检索词。
基本作用是对检索范围加以限定,逐步缩小检索范围,提高检索结果的查准率。例如,检索“计算机在图书馆中的应用”方面的文献,其提问式可写成:计算机 and 图书馆 或 计算机*图书馆
逻辑或“ OR ”运算符,也可用“ + ”表示,是用来组配具有同义或同族概念的检索词。如:检索提问式:“A OR B”或“A + B”
其含义是数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献。
基本作用是扩大检索范围,增加命中文献量,提高文献的查全率。如:“微机 + 电脑 + PC机”、 “微机 or 电脑 or PC机”
逻辑非“ NOT ”运算符,也可用“-”表示,“NOT”算符是排除含有某些词的记录,其逻辑提问表达式为“A NOT B”或 “A - B”,即检出的记录中只能含有“NOT”算符前的检索词 A,但不能同时含有“NOT”后的检索词 B。
基本作用是缩小检索范围,但并不一定能逻辑非提高文献命中的准确性,一般只起到减少文献输出量的作用。在联机检索中可降低检索费用。例如:“计算机 NOT 微机”
应注意,由于“NOT”算符有排除掉相关文献的可能,因此,在实际检索中应慎重使用。
2.截词检索
截词检索是在词干的不同位置添加截词符“?”、“*”或“$”,以此代表词的可变部位,以检索一组概念相关或同一词根的词,从而减少相同词干的检索词的输入数量,提高检全率的一种常用检索方法。
这种检索方式可以扩大检索范围,提高查全率,主要用于西文数据库检索。中文数据库通常不使用这种技术。
主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。在不同的检索系统里用不同的符号,一般为:*、?、!
基本作用是提高查全率,防止漏检。
类型:
■ 根据截词的位置不同,分为前截断、后截断、中截断
前截断:又称左截断,截词符放在被截词的左边,可与后截断一同使用。目前这种检索技术应用已经极少,例如:*magnetic。
中截词:把截词符放在词的中间。这种方式查找英美不同拼法的概念最有效。例如:如:wom*n 可检出woman,women
后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的检索技术,例如:librar*。
■ 根据截断的数量不同,分为有限截断和无限截断。
有限截断:限制被截断的字符数量,例如输入apple? ? 表示被截断的字符只有两个,可检出apple、applet等结果。
无限截断:不限制被截断的字符数量。例如输入educat?,可以检索educator,educators,educated,educating,education,educational,等等。
注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认。
3.位置算符检索
表示两个检索词间的位置临近关系,又叫邻接检索。这种检索技术通常只出现在西文数据库中,在全文检索中应用较多。
布尔逻辑运算符表示两个概念之间的逻辑关系,位置算符表示的是两个概念在信息中的实际物理位置关系
常用位置算符
W/n(with/n):两词相邻,在一个标引字段中W/n表示两个词不可以互换顺序,二者之间可插入0-n个词。 如:智能机器人(w/3)控制,可检出“智能机器人控制”,“智能机器人行为控制”等
N/n(near/n):两词相邻,N/n表示两个词可以互换顺序,二者之间可插入n个词。 如:智能机器人(n/3)控制,可检出“智能机器人控制”,“控制算法对智能机器人的影响”等
F(field):同字段检索,被f连接的检索词必须出现在同一字段中。
S(sub-field/sentence):同句检索, 要求参加检索运算的两个检索词必须在同一自然句中出现。
4. 限制
文档评论(0)