2–信息猎取模型Modeling–I.ppt

下载文档

5
0
约 71页
2017-05-09 发布于上海
举报
版权申诉
保障服务

2–信息猎取模型Modeling–I.ppt

1、本文档共71页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2–信息猎取模型Modeling–I

2.信息获取模型Modeling I 基本概念经典的IR模型结构化文本检索模型浏览模型 Review of Last Week 信息检索简介将用户的信息需求转变到查询匹配查询和存储的文档信息评价查询结果与用户需求的匹配程度以下概念的区别 Data retrieval and information retrieval 初步介绍了索引技术倒排索引为什么使用倒排索引？倒排索引的结构如何？一些压缩技术，包括词表压缩出现位置压缩齐普夫率Zipf’s Law 提出了信息检索中存在的一些问题前言本周主要介绍IR系统的一些模型为什么要建模? 方便深入地分析比较和预测什么是建模? 通过理论方法描述系统的本质，忽略一些无关紧要的方面 IR系统的一个核心问题就是预测或计算出文档集中哪些与用户查询是相关的、哪些是无关的文档文档是由文本构成的逻辑单元记录的单元 (由文本或其他一些东西组成) 能够被存储、检索、显示出的单元实体用来表达某种语义的实体单元 units of text grouped together for a purpose 也可能是完全无结构的文本 Text as written by authors of documents 文档模型文档应当以一种可以被计算机识别的格式或结构来处理和表达文档由文本组成并非文本中的每一个词对于有哪些信誉好的足球投注网站都有意义文档本身往往并不包含可识别的元数据信息，比如作者和文档的标题文档的表现形式文档应该能够被处理，文档的表达方式能够帮助用户从系统中识别和接受信息识别作者和标题识别文章主题提供总结/摘要对文档进行主题分类查询处理 IR 系统通常采用关键词/索引词来处理查询索引词文档关键词或一些被选定来表达文档内容的词文档中的任何词 (更一般意义上讲) 对于文档可能进行词根处理 connect: connecting, connection, connections 中文也有词根处理，如：高高兴兴 → 高兴根据选定的索引词建倒排索引，以便查询使用结果排名结果排名是指对检索到的文档进行排序，这个顺序反映了文档与用户需求之间的相关程度排序基于相关度计算的一些基本假设进行查询和文档关键词共享同一个词的集合如何定义相关度不同的相关性定义导致不同的IR模型结果排名在索引词层次的匹配是不精确的用户经常对有哪些信誉好的足球投注网站结果不满意大多数用户并不知道如何正确使用查询的语法，因此查得的结果就会更糟糕 Web用户经常会感到不满意如何能够形成好的排名对于IR系统来说至关重要 IR系统的形式化描述 (MIR p. 23) IR模型是一个四元组D, Q, F, R(qi, dj) D 是文档集中文档的逻辑表示形式 Q 是用户需求的逻辑表示形式，亦可理解为查询 F 是一种机制，用于构建文档表示、查询以及它们之间关系的模型 R(qi, dj) 是排名函数，该函数输出一个与查询qi∈Q和文档表示dj ∈D有关的实数，从而在文档之间根据查询qi定义一个顺序框架F的含义对于经典布尔模型而言，框架由文档集合和作用在这个集合上的标准运算（与、或、非）组成对于经典向量模型而言，框架由t维向量空间和作用在向量上的标准线性代数运算组成对于经典概率模型而言，框架由集合、标准概率运算和贝叶斯 Bayes理论组成经典IR模型-基本概念每个文档可用一组有代表性的关键词集合来描述索引项index terms往往是文档中的一个词，这个词有助于表达或记载该文档的主题索引项index terms通常是名词，因为名词本身具有语义对于一个全文检索系统来说，也可以假设所有的词都是索引项例如，一些web search engines 经典IR模型-基本概念不同关键词在描述文档内容时的作用是不尽相同的，较少出现的词往往能够表征出较少的文档集合索引项index term的重要性由权重来表示，设 ki 是一个索引项 index term dj 是一个文档 document wij 是 (ki,dj) 之间的权重权重 wij 定量描述了某关键词ki对于描述文档dj的重要程度经典IR模型 – 符号表示 ki 索引项 index term dj 文档document t 系统中索引项的数目 K = (k1, k2, …, kt) 是所有索引项的集合 wij 0 是索引项ki在文档dj中的权重 wij = 0 表明某词并不属于某文档，或词与文档无关 vec(dj) = (w1j, w2j, …, wtj) 是与文档dj相关的词的权重向量 gi(vec(dj)) = wij 返回vec(dj)中第i个向量的函数集合(直观描述) 具有某种属性的