网站大量收购独家精品文档,联系QQ:2885784924

lecture18-lsi 第18讲 隐性语义索引 现代信息检索导论 教学课件.ppt

lecture18-lsi 第18讲 隐性语义索引 现代信息检索导论 教学课件.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture18-lsi 第18讲 隐性语义索引 现代信息检索导论 教学课件

Introduction to Information Retrieval 现代信息检索 中科院研究生院2011年秋季课程《现代信息检索》 更新时间: Modern Information Retrieval 授课人:王斌 /~wangbin *改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 第18讲 隐性语义索引 Latent Semantic Indexing 2011/11/27 提纲 上一讲回顾 隐性语义索引 空间降维处理 LSI 在IR中的应用 提纲 上一讲回顾 隐性语义索引 空间降维处理 LSI 在IR中的应用 4 层次聚类 层次聚类的目标是生成类似于前面提到的Reuters目录的一个层次结构: 这个层次结构是自动创建的,可以通过自顶向下或自底向上的方法来实现。最著名的自底向上的方法是层次凝聚式聚类(hierarchical agglomerative clustering,HAC)。 5 单连接: 最大相似度(最短距离) 6 全连接: 最小相似度 7 质心法 8 组平均 9 四种HAC算法的比较 方  法 结合相似度 时间复杂度 是否最优? 注  释 单连接 簇间文档的最大相似度 Ɵ(N2) yes 链化效应 全连接 簇间文档的最小相似度 Ɵ(N2 log N) no 对离群点敏感 组平均 所有文档相似度的平均值 Ɵ(N2 log N) no 大部分应用中的最佳选择 质心法 所有簇间相似度的平均值 Ɵ(N2 log N) no 相似度颠倒 10 簇标签生成的例子 文档数目 簇标签生成方法 质心 互信息 标题 4 622 oil plant mexico production crude power 000 refinery gas bpd plant oil production barrels crude bpd mexico dolly capacity petroleum MEXICO: Hurricane Dolly heads for Mexico coast 9 1017 police security russian people military peace killed told grozny court police killed military security peace told troops forces rebels people RUSSIA: Russia’s Lebed meets rebel chief in Chechnya 10 1259 00 000 tonnes traders futures wheat prices cents september tonne delivery traders futures tonne tonnes desk wheat prices 000 00 USA: Export Business - Grain/oilseeds complex 三种方法:选择质心向量中的突出词项,使用MI的差别式标签,使用离质心最近的文档的标题 三种方法的结果都不错 11 本讲内容 矩阵SVD分解 隐性语义索引LSI(Latent Semantic Indexing) LSI在IR中的应用 提纲 上一讲回顾 隐性语义索引 空间降维处理 LSI 在IR中的应用 13 回顾一下词项-文档矩阵 该矩阵是计算文档和查询相似度的基础,接下来我们要介绍,能否通过对该矩阵进行转换来获得文档和查询之间的一个更好的相似度计算方法? Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth anthony 5.25 3.18 0.0 0.0 0.0 0.35 brutus 1.21 6.10 0.0 1.0 0.0 0.0 caesar 8.59 2.54 0.0 1.51 0.25 0.0 calpurnia 0.0 1.54 0.0 0.0 0.0 0.0 cleopatra 2.85 0.0 0.0 0.0 0.0 0.0 mercy 1.51 0.0 1.90 0.12 5.25 0.88

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档