- 1、本文档共82页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 信息检索模型;内容提要;什么是模型?;信息检索模型;信息检索模型;文档逻辑视图;匹配处理框架(F);匹配计算函数R;信息检索模型决定于:
从什么样的视角去看待查询式和文档?
基于什么样的理论去看待查询式和文档的关系?
如何计算查询式和文档之间的相似度?;模型的分类;1 布尔模型(Boolean Model);布尔模型描述;布尔模型的基本原理
布尔模型在解释信息检索处理过程时,主要遵守的两
条原则:
系统索引词集合中的每一个索引词在一篇文档中只有两种状态:出现或不出现。每个索引词的权值wij∈{0,1}
检索提问式q由三种布尔逻辑运算符“and”、“or”、“not”连接索引词来构成。
根据布尔逻辑的运算规定,提问式q可以被表示成由合取子项(conjunctive components)组成的析取范式(disjunctive normal form,简称dnf)形式。
; 如:提问式 q = k1 and (k2 or not k3)可写成等价的???取范式形式:
q dnf = (k1 and k2 and k3) or (k1 and k2 and not k3) or (k1 and not k2 and not k3 )
这里q dnf是提问式q的主析取范式。可进一步简化表示 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf的三个合取子项qcc,他们是一组向量,由对应的三元组(k1 , k2 , k3)的每一个分量取0或1得到。
基于以上规则和假定,布尔模型对于任一篇文献dj∈D,定义与用户提问q的匹配函数为:; 1 如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
Sim(dj,q)=
0 其他
例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键
词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为:
d1 =(1,1,0) , d2 =(1,0,1)
根据匹配函数的定义,显然,d1与提问式q = k1 and (k2
or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与
提问式q的匹配函数值是0, 表明d2与提问q是不相关的。;;布尔模型的优点;布尔模型存在的问题;课堂练习题(1);参考答案;课堂习题(2);2 向量空间模型;向量空间模型的基本原理
;模型的描述;模型的特点;模型中的问题;索引项的选择;索引项的选择;文档向量的构造
对于任一文档dj∈D,都可将它表示为t维向量形式:
dj= (w1j, w2j, …,wij)
其中,向量分量wij代表第i个索引词ki在文档dj中所具有的权重,t为系统中索引词的个数。
在Boolean模型中, wij ={0,1}
在VSM中,wij =[0,1]
一篇文档有多个索引词,如何计算每个索引词的权值?
;索引词的权重;例如:文档总数为1000,出现关键词k1文档为100篇,出现关键词k2文档为500篇,出现关键词k3文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
idf2= 3 – 2.7 = 0.3
idf3 = 3 – 2.9 = 0.1
Idf越大,表明区别(分)文档的能力越强。
;文档的词项权重(TFIDF举例);Idf 计算示例;查询式的词项权重;由索引项构成向量空间;文档集 – 一般表示;图示;相似度计算;通过计算查询式和文档之间的相似度;相似度度量 – 内积(Inner Product);内积 – 举例;内积的特点;余弦(Cosine)相似度度量;其它相似度度量方法;示例;向量空间模型优点;向量空间模型的不足;课堂练习(3);docid;概率模型;;3 概率模型;经典概率模型最早在1976年由英国城市大学Robertson和Sparck-Jones提出。
基本思想:给定一个用户提问,则检索系统中存在一个与该提问相关的理论命中结果集R。如果能已知R的主要特征及其描述,则用户的检索要求便不难实现。事实上,用户提出检索请求时,并不知道R的特征,为此,需要在检索开始时就对R的特征进行某种猜测。根
文档评论(0)