- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture18-lsi 第18讲 隐性语义索引 现代信息检索导论 教学课件
Introduction to Information Retrieval
现代信息检索
中科院研究生院2011年秋季课程《现代信息检索》 更新时间:
Modern Information Retrieval
授课人:王斌
/~wangbin
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
第18讲 隐性语义索引
Latent Semantic Indexing
2011/11/27
提纲
上一讲回顾
隐性语义索引
空间降维处理
LSI 在IR中的应用
提纲
上一讲回顾
隐性语义索引
空间降维处理
LSI 在IR中的应用
4
层次聚类
层次聚类的目标是生成类似于前面提到的Reuters目录的一个层次结构:
这个层次结构是自动创建的,可以通过自顶向下或自底向上的方法来实现。最著名的自底向上的方法是层次凝聚式聚类(hierarchical agglomerative clustering,HAC)。
5
单连接: 最大相似度(最短距离)
6
全连接: 最小相似度
7
质心法
8
组平均
9
四种HAC算法的比较
方 法
结合相似度
时间复杂度
是否最优?
注 释
单连接
簇间文档的最大相似度
Ɵ(N2)
yes
链化效应
全连接
簇间文档的最小相似度
Ɵ(N2 log N)
no
对离群点敏感
组平均
所有文档相似度的平均值
Ɵ(N2 log N)
no
大部分应用中的最佳选择
质心法
所有簇间相似度的平均值
Ɵ(N2 log N)
no
相似度颠倒
10
簇标签生成的例子
文档数目
簇标签生成方法
质心
互信息
标题
4
622
oil plant mexico production crude power
000 refinery gas bpd
plant oil production
barrels crude bpd mexico dolly capacity petroleum
MEXICO: Hurricane
Dolly heads for Mexico coast
9
1017
police security russian
people military peace killed told grozny court
police killed military
security peace told troops forces rebels people
RUSSIA: Russia’s
Lebed meets rebel
chief in Chechnya
10
1259
00 000 tonnes traders
futures wheat prices
cents september tonne
delivery traders futures
tonne tonnes desk wheat prices 000 00
USA: Export Business
- Grain/oilseeds complex
三种方法:选择质心向量中的突出词项,使用MI的差别式标签,使用离质心最近的文档的标题
三种方法的结果都不错
11
本讲内容
矩阵SVD分解
隐性语义索引LSI(Latent Semantic Indexing)
LSI在IR中的应用
提纲
上一讲回顾
隐性语义索引
空间降维处理
LSI 在IR中的应用
13
回顾一下词项-文档矩阵
该矩阵是计算文档和查询相似度的基础,接下来我们要介绍,能否通过对该矩阵进行转换来获得文档和查询之间的一个更好的相似度计算方法?
Anthony and Cleopatra
Julius Caesar
The
Tempest
Hamlet
Othello
Macbeth
anthony
5.25
3.18
0.0
0.0
0.0
0.35
brutus
1.21
6.10
0.0
1.0
0.0
0.0
caesar
8.59
2.54
0.0
1.51
0.25
0.0
calpurnia
0.0
1.54
0.0
0.0
0.0
0.0
cleopatra
2.85
0.0
0.0
0.0
0.0
0.0
mercy
1.51
0.0
1.90
0.12
5.25
0.88
您可能关注的文档
- Governance for sustainable development environment and sustainable development 教学课件.ppt
- GPIO 嵌入式课件.ppt
- google_earth指南.pdf
- GPS原理与应用 教学大纲 (全套).doc
- GPS原理与应用 实验指导(全套).doc
- Google Earth 摄影测量基础 教学课件.ppt
- GPS出租车定位管理系1.doc
- GRE – Graduate Records Examination.pdf
- GQ001石膏板隔墙培训 装饰施工分项作业培训教材 教学课件.ppt
- Groovy DSLs 教学课件.ppt
最近下载
- 感恩父母_感恩老师.ppt VIP
- 病例分享模板课件.ppt VIP
- 立体构成 课件完整版.pptx
- 晟欣SFR系列标准型软起动器使用手册2017.pdf
- 2022年昆明空港投资开发集团有限公司招聘考试题库及答案解析.docx
- 2023云南昆明空港投资开发集团招聘7人考前自测高频考点模拟试题(共500题)含答案详解.docx
- 第5课+隋唐时期的民族交往与交融+课件-2024-2025学年统编版(2024)七年级历史下册 (1).pptx VIP
- 教学课件 社会工作概论(第三版)李迎生.ppt
- 建筑结构抗震 (15).pdf VIP
- (2025春新改)人教版七年级历史下册《 隋唐时期的民族交往与交融》PPT课件.pptx VIP
文档评论(0)