中国科学院大学现代信息检索2012年秋季期末试题及答案.docVIP

中国科学院大学现代信息检索2012年秋季期末试题及答案.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

中国科学院研究生院 课程编号:71258-Z-2

试题专用纸 课程名称:现代信息检索

任课教师:王斌

———————————————————————————————————————————————

姓名 学号 成绩

判断题(正确打√,错误打X。每题2分,共30分)

建立倒排索引时,只能以文件作为索引单位。(X)

词项集合和词条集合有时可以完全不同,甚至交集为空集。(√)

轮排索引和k-gram索引都可以支持通配查询的处理。(√)

倒排索引的构建与所处的硬件环境息息相关。(√)

γ的编码序列唯一,但解码序列不唯一。(X)

向量空间模型的计算当中,采用余弦相似度和欧氏距离得到的相似度是一致的,即两个向量的余弦相似度大,则欧氏距离一定小,而当余弦相似度小时欧氏距离大。(X)

信息检索系统中只存在一种索引结构。(X)

隐式相关反馈中对用户的行为进行分析,因此一定会提高检索的效果。(X)

在BM25检索模型中,考虑了文档长度对检索带来的影响。(√)

在朴素贝叶斯分类器,基于多项式模型和基于贝努利模型的实现中采用了完全相同的假设。(X)

条件独立假设+位置独立假设+只考虑出现位置独立假设+考虑不出现

特征选择函数MI(ExpectedMutualInformation)考虑了词项不存在对分类带来的影响。(√)

SVM分类的速度与支持向量的个数无关。(X)

K-均值聚类算法的结果依赖于初始种子质心的选择。(√)

GAAC层次聚类算法的结果具有确定性。(√)

隐性语义索引LSI本质上是将原始的向量空间线性变换到另一个高维向量空间。(X)

选择题(单项或多项选择。每题2分,共16分)

1、关于倒排索引的压缩,以下叙述正确的是(AB)。

A)压缩能提高空间的利用率 B)压缩能提高硬盘到内存的传输速度

C)词典压缩作用不大 D)可变字节编码压缩是一种有损压缩方法

2.关于向量空间模型,以下叙述正确的是(ABD)。

A)查询和文档均看成向量 B)权重计算的方式很多

C)查询和文档表示成不同空间的向量 D)相似度计算的方式很多

共5页第1页

3.关于隐式相关反馈,以下叙述错误的是(B)。

A)该反馈中实际上有用户参与 B)该反馈后的检索效果一定会提高

C)该反馈是一种局部方法 D)该反馈效果一般会低于用户相关反馈

4.关于伪相关反馈,以下叙述错误的是(AB)。

A)该反馈中实际上有用户参与 B)该反馈后的检索效果一定会提高

C)该反馈是一种局部方法 D)该反馈效果一般会低于用户相关反馈

5.关于kNN分类器,以下叙述错误的是(B)。

A)该分类器几乎不需要训练 B)该分类器分类速度很快

C)该分类器是非线性分类器 D)该分类器通常分类效果不错

6.关于Rocchio分类器,以下叙述错误的是(AB)。

A)该分类器不需要训练 B)该分类器通常分类效果不错

C)该分类器训练速度很快 D)该分类器分类速度很快

7.关于K-均值聚类算法,以下叙述错误的是(BD)。

A)该聚类算法要事先给定聚类数目 B)该聚类算法是确定性算法

C)该聚类算法的时间复杂度是线性的 D)该聚类算法能得到全局最优结果

8.关于HAC聚类算法,以下叙述错误的是(ACD)。

A)HAC必须要指定聚类数目 B)HAC算法都是确定性算法

C)HAC要求文档要以向量来表示 D)HAC的相似度只能采用向量内积计算

计算题(每题6分,共30分)

面对两个正确答案集合分别是Rq1={d1,d2,d3,d4,d5}及Rq2={d6,d7,d8,d9,d10}的查询q1、q2,某个检索系统A返回的检索结果如表1所示。试计算出该系统对每个查询的P、R、F、P@10、AP等指标,并计算整个系统的MAP指标。请写出计算过程并将最后结果汇总填入表2中(小数点后保留2位即可)。其中AP计算采用未插值方法。

表1检索结果表

系统-查询

返回结果数

返回结果中正确答案所在位置

A-q1

20

2-d2;4-d4;5-d1;10-d5

A-q2

20

1-d6,4-d7;10-d8;12-d9

共5页第2页

表2结果汇总表

系统查询

P

R

F

P@10

AP

MAP

A-q1

0

文档评论(0)

131****2653 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档