- 1、本文档共50页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
IR计算模型.ppt
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 经典信息检索模型 布尔模型 向量空间模型 经典概率模型 Set model Sim(A,B) = | A ?B|/|A?B|, 0 ?sim(A,B)?1. A and B are the keyword set of two documents Bag of word (词袋)模型 布尔检索模型 一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上。 遵循两条基本规则: 每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为 0或1。 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。 布尔检索模型的特点 优点:简单、易理解、简洁的形式化。 缺点:准确匹配,信息需求的能力表达不足。不能输出部分匹配的情况,无法排序,用户必须会用布尔表达式提问,一般而言,检出的文档或者太多或者太少。 布尔检索模型 首先,将查询转化为一个主析取范式DNF ?例如:查询为 q = ka ? (kb ? ?kc) 进一步表达为 vec(qdnf) = (1,1,1) ? (1,1,0) ? (1,0,0) 即:每一个分量都是三元组 的二值向量 (1,1,1) (1,0,0) (1,1,0) Ka Kb Kc 模糊集合模型 和一般集合不同的是,元素不是简单的属于或不属于某个集合,而是用隶属函数表示隶属的程度(membership function).取值范围为 [0,1]。 目标是把词汇之间的相似度引入对(查询q,文档d)之间的相似度计算中。 模糊理论 定义: 模糊集合 A 是论域 U 上的一个集合,其隶属程度由下面的隶属函数表示: ?(A,u) : U ? [0,1] u ?U A(高个子集合)={175/0.6,180/1,170/0.4,190/1} 在对模糊集合表示中,属性值为0的不写了。 设 A 和 B 为U上的两模糊集合, ?A为补集合,则定义: ?(?A,u) = 1 - ?(A,u) ?(A?B,u) = max(?(A,u), ?(B,u)) ?(A?B,u) = min(?(A,u), ?(B,u)) 问题1:是否能用搜素引擎代替训练集合实现模糊检索呢? 模糊检索的困难是必需建立总够大,并且范围总够大的训练集合。实际中一般的人和组织难以建立,是否可以利用有哪些信誉好的足球投注网站引擎建立呢? 是否可以用有哪些信誉好的足球投注网站引擎来测距离,因为这种计算是在海量数据集合上得到的 Wordnet,Google, wiki, flickr 距离 number(g(kikj))/(number(g(ki))+number(g(kj)- number(g(kikj)) 问题2 如何利用快速计算 Fuzzy 模糊计算需要查找(q,d)中的相关词之间的相似度,但相关词与q中的词如何快速匹配是个问题 向量空间模型 向量空间模型(Vector Space Model, VSM) 相比于布尔模型要求的准确匹配, Salton在60年代末提出的VSM模型采用了“部分匹配”的检索策略(即:出现部分索引词也可以出现在检索结果中)。 ?通过给查询或文档中的索引词分配非二值权值来实现。 文档的向量空间模型 ?词典, ∑={k1,k2,…kt} ?d=w1,w2,…wt –此时,变量wi称为权值,非负;表示对应词项ki对于判断d和查询q相关性的重要程度(注意,这里的q是一般的,而d是具体的) ?q=v1,v2,…vt –变量vi的含义类似于wi ?两个基本问题:如何定义wi和vi;如何计算R(d,q)? 向量空间模型 ?让wi和vi为对应的词分别在d和q中出现的次数,于是我们有了两个m维向量,用夹角的cos表示“接近度”,即 ?R(d,q) = cos(d,q) = d·q/|d|×|q| ?认为:cos(di,q) cos(dj,q),则di比dj与q更相关。如两个向量的分量都相同,相当与夹角为0,cos的值为1.都不相同,垂直情况,cos为0. 由于返回的值,介于0,1之间的实数,可以用排序的方法,前k大的结果返回给用户 Sim(q,dj) = cos(?) = [vec(dj) ? vec(q)] / |dj| * |q| i j dj q ? 函数表示法 因为 wij 0 和 wiq 0, 0 = sim(q,d
文档评论(0)