第2章信息检索模型.ppt

下载文档 降价啦

1
0
约2.5千字
约 82页
2017-05-29 发布于上海
举报
版权申诉
保障服务

第2章信息检索模型.ppt

1、本文档共82页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第二章信息检索模型;内容提要;什么是模型？;信息检索模型;信息检索模型;文档逻辑视图;匹配处理框架（F）;匹配计算函数R;信息检索模型决定于：从什么样的视角去看待查询式和文档？基于什么样的理论去看待查询式和文档的关系？如何计算查询式和文档之间的相似度？;模型的分类;1 布尔模型(Boolean Model);布尔模型描述;布尔模型的基本原理布尔模型在解释信息检索处理过程时，主要遵守的两条原则：系统索引词集合中的每一个索引词在一篇文档中只有两种状态：出现或不出现。每个索引词的权值wij∈{0,1} 检索提问式q由三种布尔逻辑运算符“and”、“or”、“not”连接索引词来构成。根据布尔逻辑的运算规定，提问式q可以被表示成由合取子项（conjunctive components）组成的析取范式（disjunctive normal form,简称dnf）形式。 ; 如：提问式 q = k1 and （k2 or not k3）可写成等价的???取范式形式： q dnf = (k1 and k2 and k3) or (k1 and k2 and not k3) or (k1 and not k2 and not k3 ) 这里q dnf是提问式q的主析取范式。可进一步简化表示为： q dnf =(1,1,1) or (1,1,0) or (1,0,0) 其中： (1,1,1) or (1,1,0) or (1,0,0)是q dnf的三个合取子项qcc，他们是一组向量，由对应的三元组(k1 , k2 , k3)的每一个分量取0或1得到。基于以上规则和假定，布尔模型对于任一篇文献dj∈D，定义与用户提问q的匹配函数为：; 1 如果存在qcc|(qcc∈qdnf)且对于任意ki, 有 gi(dj) = gi(qcc) Sim(dj,q)= 0 其他例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and （k2 or not k3）的匹配函数值是1,即d1与提问q是相关的; d2与提问式q的匹配函数值是0, 表明d2与提问q是不相关的。;;布尔模型的优点;布尔模型存在的问题;课堂练习题（1）;参考答案;课堂习题（2）;2 向量空间模型;向量空间模型的基本原理 ;模型的描述;模型的特点;模型中的问题;索引项的选择;索引项的选择;文档向量的构造对于任一文档dj∈D，都可将它表示为t维向量形式： dj= (w1j, w2j, …,wij) 其中，向量分量wij代表第i个索引词ki在文档dj中所具有的权重，t为系统中索引词的个数。在Boolean模型中， wij ={0，1} 在VSM中，wij =[0，1] 一篇文档有多个索引词，如何计算每个索引词的权值？ ;索引词的权重;例如：文档总数为1000，出现关键词k1文档为100篇，出现关键词k2文档为500篇，出现关键词k3文档为800篇 N=1000, n1=100, n2=500, n3=800 根据公式： idfi = log(N/ni) ，可计算出 idf1= 3 - 2 = 1 idf2= 3 – 2.7 = 0.3 idf3 = 3 – 2.9 = 0.1 Idf越大，表明区别（分）文档的能力越强。 ;文档的词项权重(TFIDF举例);Idf 计算示例;查询式的词项权重;由索引项构成向量空间;文档集 – 一般表示;图示;相似度计算;通过计算查询式和文档之间的相似度;相似度度量 – 内积(Inner Product);内积 – 举例;内积的特点;余弦(Cosine)相似度度量;其它相似度度量方法;示例;向量空间模型优点;向量空间模型的不足;课堂练习（3）;docid;概率模型;;3 概率模型;经典概率模型最早在1976年由英国城市大学Robertson和Sparck-Jones提出。基本思想：给定一个用户提问，则检索系统中存在一个与该提问相关的理论命中结果集R。如果能已知R的主要特征及其描述，则用户的检索要求便不难实现。事实上，用户提出检索请求时，并不知道R的特征，为此，需要在检索开始时就对R的特征进行某种猜测。根