- 1、本文档共71页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2–信息猎取模型Modeling–I
2.信息获取模型Modeling I 基本概念 经典的IR模型 结构化文本检索模型 浏览模型 Review of Last Week 信息检索简介 将用户的信息需求转变到查询 匹配查询和存储的文档信息 评价查询结果与用户需求的匹配程度 以下概念的区别 Data retrieval and information retrieval 初步介绍了索引技术 倒排索引 为什么使用倒排索引? 倒排索引的结构如何? 一些压缩技术,包括 词表压缩 出现位置压缩 齐普夫率Zipf’s Law 提出了信息检索中存在的一些问题 前言 本周主要介绍IR系统的一些模型 为什么要建模? 方便深入地分析比较和预测 什么是建模? 通过理论方法描述系统的本质,忽略一些无关紧要的方面 IR系统的一个核心问题就是预测或计算出文档集中哪些与用户查询是相关的、哪些是无关的 文档 文档是由文本构成的逻辑单元 记录的单元 (由文本或其他一些东西组成) 能够被存储、检索、显示出的单元实体 用来表达某种语义的实体单元 units of text grouped together for a purpose 也可能是完全无结构的文本 Text as written by authors of documents 文档模型 文档应当以一种可以被计算机识别的格式或结构来处理和表达 文档由文本组成 并非文本中的每一个词对于有哪些信誉好的足球投注网站都有意义 文档本身往往并不包含可识别的元数据信息,比如作者和文档的标题 文档的表现形式 文档应该能够被处理,文档的表达方式能够帮助用户从系统中识别和接受信息 识别作者和标题 识别文章主题 提供总结/摘要 对文档进行主题分类 查询处理 IR 系统通常采用关键词/索引词来处理查询 索引词 文档关键词或一些被选定来表达文档内容的词 文档中的任何词 (更一般意义上讲) 对于文档可能进行词根处理 connect: connecting, connection, connections 中文也有词根处理,如:高高兴兴 → 高兴 根据选定的索引词建倒排索引,以便查询使用 结果排名 结果排名是指对检索到的文档进行排序,这个顺序反映了文档与用户需求之间的相关程度 排序基于相关度计算的一些基本假设进行 查询和文档关键词共享同一个词的集合 如何定义相关度 不同的相关性定义导致不同的IR模型 结果排名 在索引词层次的匹配是不精确的 用户经常对有哪些信誉好的足球投注网站结果不满意 大多数用户并不知道如何正确使用查询的语法,因此查得的结果就会更糟糕 Web用户经常会感到不满意 如何能够形成好的排名对于IR系统来说至关重要 IR系统的形式化描述 (MIR p. 23) IR模型是一个四元组D, Q, F, R(qi, dj) D 是文档集中文档的逻辑表示形式 Q 是用户需求的逻辑表示形式,亦可理解为查询 F 是一种机制,用于构建文档表示、查询以及它们之间关系的模型 R(qi, dj) 是排名函数,该函数输出一个与查询qi∈Q和文档表示dj ∈D有关的实数,从而在文档之间根据查询qi定义一个顺序 框架F的含义 对于经典布尔模型而言,框架由文档集合和作用在这个集合上的标准运算(与、或、非)组成 对于经典向量模型而言,框架由t维向量空间和作用在向量上的标准线性代数运算组成 对于经典概率模型而言,框架由集合、标准概率运算和贝叶斯 Bayes理论组成 经典IR模型-基本概念 每个文档可用一组有代表性的关键词集合来描述 索引项index terms往往是文档中的一个词,这个词有助于表达或记载该文档的主题 索引项index terms通常是名词,因为名词本身具有语义 对于一个全文检索系统来说,也可以假设所有的词都是索引项 例如,一些web search engines 经典IR模型-基本概念 不同关键词在描述文档内容时的作用是不尽相同的,较少出现的词往往能够表征出较少的文档集合 索引项index term的重要性由权重来表示,设 ki 是一个索引项 index term dj 是一个文档 document wij 是 (ki,dj) 之间的权重 权重 wij 定量描述了某关键词ki对于描述文档dj的重要程度 经典IR模型 – 符号表示 ki 索引项 index term dj 文档document t 系统中索引项的数目 K = (k1, k2, …, kt) 是所有索引项的集合 wij 0 是索引项ki在文档dj中的权重 wij = 0 表明某词并不属于某文档,或词与文档无关 vec(dj) = (w1j, w2j, …, wtj) 是与文档dj相关的词的权重向量 gi(vec(dj)) = wij 返回vec(dj)中第i个向量的函数 集合(直观描述) 具有某种属性的
文档评论(0)