- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
倒排检索构建 主讲人:陈文亮 苏州大学计算机学院 提纲 倒排索引 布尔查询的处理 一个简单的例子(金庸小说) 金庸的哪本小说包含郭靖和黄蓉但不包含洪七公? 布尔表达式为 郭靖 AND 黄蓉 AND NOT 洪七公 笨方法: 从头到尾扫描所有小说,对每本小说判断它是否包含郭靖和黄蓉但不包含洪七公 笨方法为什么不好? 速度超慢 (特别是大型文档集) 不太容易支持其他操作 (e.g., find the word Romans near countrymen) 不支持检索结果的排序 (即只返回较好的结果) 词项-文档(term-doc)的关联矩阵 若某小说包含某单词,则该位置上为1,否则为0 郭靖 AND 黄蓉 BUT NOT 洪七公 射雕英雄传 神雕侠侣 天龙八部 倚天屠龙记 鹿鼎记 郭靖 1 1 0 1 0 黄蓉 1 1 0 1 0 洪七公 1 1 0 0 0 张无忌 0 0 0 1 0 韦小宝 0 0 0 0 1 关联向量(incidence vectors) 关联矩阵的每一列都是 0/1向量,每个0/1都对应一个词项 给定查询郭靖 AND 黄蓉 BUT NOT 洪七公 取出三个列向量 ,并对 洪七公的列向量求补,最后按位进行与操作 11010 AND 11010 AND 00111 = 00010. 上述查询的结果文档 倚天屠龙记 IR中的基本假设 文档集Collection: 由固定数目的文档组成 目标: 返回与用户需求相关的文档并辅助用户来完成某项任务 相关性Relevance 主观的概念 反映对象的匹配程度 不同应用相关性不同 典型的有哪些信誉好的足球投注网站过程 文档集 任务 信息需求 查询 自然语言描述 结果 有哪些信誉好的足球投注网站 引擎 查询 重构 Get rid of mice in a politically correct way Info about removing mice without killing them How do I trap mice alive? mouse trap 是否转义? 是否转义? 是否转义? 检索效果的评价 正确率(Precision) : 返回结果文档中正确的比例。如返回80篇文档,其中20篇相关,正确率1/4 召回率(Recall) : 全部相关文档中被返回的比例,如返回80篇文档,其中20篇相关,但是总的应该相关的文档是100篇,召回率1/5 正确率和召回率反映检索效果的两个方面,缺一不可。 全部返回,正确率低,召回率100% 只返回一个非常可靠的结果,正确率100%,召回率低 大文档集 假定N = 1 百万篇文档(1M), 每篇有1000个词(1K) 假定每个词平均有6个字节(包括空格和标点符号) 那么所有文档将约占6GB 空间. 假定 词汇表的大小(即词项个数) M = 500K 词项-文档矩阵将非常大 矩阵大小为 500K x 1M=500G 但是该矩阵中最多有10亿(1G)个1 词项-文档矩阵高度稀疏(sparse). 稀疏矩阵 应该有更好的表示方式 求方法? Why? 词项-文档矩阵将非常大 应该有更好的表示方式 比如我们仅仅记录所有1的位置 倒排索引(Inverted index) 对每个词项t, 记录所有包含t的文档列表. 每篇文档用一个唯一的 docID来表示,通常是正整数,如1,2,3… 能否采用定长数组的方式来存储docID列表 Brutus Calpurnia Caesar 1 2 4 5 6 16 57 132 1 2 4 11 31 45 173 2 31 文档14中加入单词Caesar时该如何处理? 174 54 101 倒排索引(续) 通常采用变长表方式 磁盘上,顺序存储方式比较好,便于快速读取 内存中,采用链表或者可变长数组方式 存储空间/易插入之间需要平衡 Dictionary Postings 按docID排序 (原因后面再讲) Posting Brutus Calpurnia Caesar 1 2 4 5 6 16 57 132 1 2 4 11 31 45 173 2 31 174 54 101 词典 倒排(记录)表 倒排记录 Tokenizer 词条流 Friends Romans Countrymen 倒排索引构建 Linguistic modules 修改后的词条 friend roman countryman Indexer 倒排索引 friend roman countryman 2 4 2 13 16 1 待索引文档 Friends, Romans, countrymen. 词条化工具 语言分析工具 索引构建过程: 词条序列 词条,docID二元组 I did enact Julius Caesar I was ki
您可能关注的文档
- 供电企业行风建设年活动实施方案课件.doc
- 供给、需求与政府政策课件.ppt
- 供给与需求(II):市场和福利课件.ppt
- 依法行政法律知识学习资料课件.doc
- 侨光科技大学-学年度-第-学期-学生社团活动申请表课件.doc
- 侵权引起的教育法律案件课件.doc
- 促进养猪业发展-维护饲养者健康防范猪·人共患疾病课件.ppt
- 促进服务业发展专项资金---电子商务专项发展资金自评报告课件.doc
- 俄联邦:-将健康、贫穷和经济增长连在一起课件.ppt
- 保健食品、化妆品日常监管及2013年工作重点课件.ppt
- FUWIT铨顺宏GPS 北斗 Glonass外置接收机FU-168规格书.pdf
- FUWIT铨顺宏Nano 硬件指南.pdf
- FUWIT铨顺宏惯性导航模组88788-40 使用说明.pdf
- FUWIT铨顺宏Astra-EX & M6用户指南.pdf
- FUWIT铨顺宏M5e &M5e-c Module 系列开发指南.pdf
- AUTEL道通智能EVO II 行业版用户手册-CN.pdf
- FUWIT铨顺宏Nomad Reader 设计手册.pdf
- FUWIT铨顺宏Cat1无线定位智能校牌(无屏)FU-MY01 02.pdf
- FUWIT铨顺宏GPS模组FU-GT3-1612规格书.pdf
- FUWIT铨顺宏Nomad Reader 安装指南.pdf
文档评论(0)