- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息组织与检索第四章信息检索模型
* * 4.5 概率模型 相似度计算 根据贝叶斯定理 得 * * 4.5 概率模型 对于文档集中的文档来说, 与 都是一样的,因此 假设索引项是独立的,那么 wi=1 if ki belongs to document di. wi=0 if ki not belongs to di . * * 4.5 概率模型 记: pi – the probability of term ki to appear in R qi – the probability of term ki to appear in * * 4.5 概率模型 相似性用相关排序值来度量: * * 4.5 概率模型 用对数的相关度量值来表示: * * 4.5 概率模型 C –对于所有文档来说是个常数,因此可以忽略. 记: * * 4.5 概率模型 ci – 项相关权重。表示ki区分相关与不相关文档的能力性。 关键是要知道概率 和 值。 概率模型就是采用相关反馈的方法,从假设二个初始的概率开始,不断调整概率估计值,直到得到一个满意的应答集的概率排序。 详细的利用概率模型进行相关反馈的处理过程 * * 小结 信息检索模型是信息检索技术的基础和理论 核心问题是:文档的表示、查询的表示、匹配的度量 布尔模型是最基本的方法,其主要问题是不具备识别部分匹配的能力,这样会导致较差的检索性能。 概率模型与矢量模型谁优谁劣? 新的检索模型? * Cat or Dog 为真, Collar or Leash 为真,这样它们的And才为真 * 布尔表达式不为真的情况。 * 布尔表达式不为真的情况。 * Crack:裂缝。Prestressed concrete beam: 预制水泥梁。 * * 相似度计算也就是计算匹配排序值。 * C的值中表示ki在文档中不出现的概率,对于给定文档集来说,是一个常数。 实际上,wi值应该代表查询和文档矢量的共同项,为1表示在查询和文档中都有对应的项,为0表示在查询中或文档中该项不存在,或都不存在。 也有认为,虽然从score中考虑的仅仅是文档项,实际上在实际应用中,仅仅用于(考虑)查询项。 * * 第4章 信息检索模型 信息检索 涉及到三个重要的处理 文档集的逻辑表示 查询的表示 相似匹配及其排序 对这些检索的因素和过程建模就产生了各种不同的信息检索模型 * * 第4章 信息检索模型 4.1 什么是信息检索模型 4.2 检索模型的分类 4.3 布尔模型 4.4 矢量模型 4.5 概率模型 4.6 小结 * * 第4章 信息检索模型 4.1 什么是信息检索模型 4.2 检索模型的分类 4.3 布尔模型 4.4 矢量模型 4.5 概率模型 4.6 小结 * * 4.1 什么是信息检索模型 一个信息检索模型是将以下元素进行建模的框架 文档逻辑视图D 查询Q 以及它们之间关系:相关性R 可以用三元体表示 * * 4.2 检索模型的分类 信息检索模型 检索模型 浏览模型 结构模型 内容模型 平坦 模型 结构向 导模型 超文本 模型 非重叠链表模型 邻近节 点模型 布尔 模型 矢量 模型 概率 模型 * * 4.3 布尔模型 一、索引项权重 索引项:每个文档是由一组具有代表性的词来描述,这些词被称为索引项。 对于某个文档中的一组索引项来说,它们在描述文档内容方面的作用是不相同。 为文档中的索引项定义一个权重来描述其重要程度。 * * 4.3 布尔模型 设t为系统中索引项的数目 是其中的一个索引项 是索引项的集合 是文档 中的每个索引项 的权重,这个权重是该索引项所描述文档语义内容重要性的定量表示。 每个文档 具有一个索引项(权重)矢量 * * 4.3 布尔模型 二、布尔模型 布尔查询的表达 Terms + Connectors (or operators) terms words normalized (stemmed) words phrases thesaurus terms connectors AND、OR、NOT * * 4.3 布尔模型 例如 Cat Cat OR Dog Cat AND Dog (Cat AND Dog) (Cat AND Dog) OR Collar (Cat AND Dog) OR (Collar AND Leash) (Cat OR Dog) AND (Collar OR Leash) * * 4.3 布尔模型 (Cat OR Dog) AND (Collar OR Leash) Each
您可能关注的文档
- 人教版物理必修一:1.5《速度变化快慢的描述-加速度》课件.ppt
- 人教版物理必修一:第1章(第5课时)《速度变化快慢的描述-加速度》课件.ppt
- 人教版生物2018年高三一轮复习第5讲细胞膜与细胞核课件.ppt
- 人教版必修1生物课件——第三章第一节细胞膜——系统的边界.ppt
- 人教版生物单细胞生物35.ppt
- 人教版选修3专题2第一节第二课时植物细胞工程的实际应用(共37张).ppt
- 人教版选修3专题2第一节第二课时植物细胞工程的实际应用(共36张).ppt
- 人教版高中政治必修四:5.2意识的作用课件.ppt
- 人教版高中生物必修1第六章第四节《细胞的癌变》精美课件.ppt
- 人教版高中政治学习高中政治经典课件:必修410.1树立创新意识是唯物辩证法的要求(共37张).ppt
文档评论(0)