- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4.1 基本信息检索文本信息一直都是人类生产积累、交流和使用信息资源的主要媒介表现形式,目前信息检索最成熟并居于主流地位的仍然是文本信息检索技术4.1.1希尔检索希尔检索通过采用不同的希尔逻辑运算符将简单的检索单元组成配起来,形成具有复杂的检索表达式,用以表达用户的检索提问,是现代信息检索系统中最常用的使用的的一种方法。逻辑运算符及其使用(1)布尔检索是数据库检索最基本的方法,是用逻辑“或”(+、OR)、逻辑与(×、AND)、逻辑非(-、NOT)等算符在数据库中对相关文献的定性选择的方法。1)逻辑或(+、OR):用来组配相同概念的词,文献中凡含有A或者B检索词或者同时含有检索词A和B的文献均为命中文献。组配方式:A+B,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。这样的组配可以放宽范围,扩增检索结果,提高查全率。2)逻辑与(*、AND):检索时,数据库中同时含有检索词A和检索词B的文献才是命中文献。组配方式:A×B,表示检索必须同时含有A、B两词的文章。这样的组配增加了限制条件,即增加检索的专指性,以缩小范围,减少文献输出量,提高检准率。3)逻辑非(-、NOT):数据库中凡含有检索词A而不要检索词B的文献,为命中文献,是用来检索中排除某些词的。组配方式:A-B,表示检索出含有A词而不含有B词的文章,用于排除不希望出现的检索词,能够缩小命中文献范围,增强检索的准确性。除了以上3种基本的逻辑运算符外还有异或(XOR)运算符。XOR是Exclusive OR 的缩写形式。严格的讲,XOR并不属于布尔逻辑,而是数理逻辑的一类,但在信息检索中被划归在希尔运算中。异或运算符也可表达为“⊕”例如,检索词A和检索词B的异或关系可以表达为“A XOR B”或者“A⊕B”。在检索词过程中,含有检索词A的文件符合条件,含有检索词B的文件也符合条件,但同时含有检索词A和检索词B的文件不符合命中条件。(2)基本运算符对于一个希尔逻辑检索,检索系统的处理是从左向右进行的,现行的所有情报检索系统在这一点上都是一致的。但是OR、AND、NOT、XOR的运算顺序,不同的系统有不同的规定。在有括号的情况下,括号内的逻辑运算符先执行,括号有多层是最内层括号中的运算符先执行,而在无括号的情况下,则有下述几种处理顺序。A、NOT最先执行,AND其次执行,OR最后执行,Dialog的RECON软件采用的是这种顺序。B、AND与NOT依其自然顺序同级最先执行。OR与XOR依其自然顺序同级其次执行。STAIRS软件、ORBIT软件均采用这种顺序。C、AND最先执行,NOT其次执行,NOT最后执行。D、OR最先执行,AND其次执行,NOT最后执行。E、按自然排列顺序执行。2、检索表达式的变换处理用户向检索系统输入希尔逻辑运算符后,系统需要经过必要的处理和编辑才能输出检索结果。常用的检索表达式变换处理方式有妮波兰变换、准波兰变换和吸析取范式变换。逆波兰变换逆波兰变换又称“福岛方法”。其主要思想是将检索表达式转换成等价的逆波兰式然后对逆波兰式进行解析形成一组检索指令。1)、波兰表示法逆波兰表示法(Reverse Polish notation,RPN,或逆波兰记法),是一种是由波兰数学家扬·武卡谢维奇1920年引入的数学表达式方式,在逆波兰记法中,所有操作符置于操作数的后面,因此也被称为后缀表示法。逆波兰记法不需要括号来标识操作符的优先级。逆波兰结构由弗里德里希·鲍尔(Friedrich L. Bauer)和艾兹格·迪科斯彻在1960年代早期提议用于表达式求值,以利用堆栈结构和减少计算机内存访问。逆波兰记法和相应的算法由澳大利亚哲学家、计算机学家查尔斯·汉布林(Charles Hamblin)在1960年代中期扩充[1][2]在1960和1970年代,逆波兰记法广泛地被用于台式计算器,因此也在普通公众(工程、商业和金融领域)中使用。逆波兰记法中,操作符置于操作数的后面。例如表达“三加四”时,写作“3 4 +”,而不是“3 + 4”。如果有多个操作符,操作符置于第二个操作数的后面,所以常规中缀记法的“3 - 4 + 5”在逆波兰记法中写作“3 4 - 5 +”:先3减去4,再加上5。使用逆波兰记法的一个好处是不需要使用括号。例如中缀记法中“3 - 4 * 5”与“(3 - 4)*5”不相同,但后缀记法中前者写做“3 4 5 * -”,无歧义地表示“3 (4 5 *) ?”;后者写做“3 4 - 5 *”。逆波兰表达式的解释器一般是基于堆栈的。解释过程一般是:操作数入栈;遇到操作符时,操作数出栈,求值,将结果入栈;当一遍后,栈顶就是表达式的值。因此逆波兰表达式的求值使用堆栈结构很容易实现,和能很快求值。注意:逆波兰记法并不是简单的波兰表达式的反转。因为对于不满足交换律的
文档评论(0)