网站大量收购闲置独家精品文档,联系QQ:2885784924

东北大学软工程硕士--信息检索复习题及答案.docVIP

东北大学软工程硕士--信息检索复习题及答案.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
东北大学软工程硕士--信息检索复习题及答案

信息检索复习要点 第一讲 网页采集 网页采集器的基本原理[简答题] 网页采集器的设计[题][简答题] 第二讲 分析处理 网页分析处理的必要性[简答题] 分词歧义的处理方法[简答题] 分词的设计[题] 将文章分成句子(通过标点符号来实现); 循环的读入每一个句子S,设句子中的字数为n; 设置一个最大词长度,就是我们要截取的词的最大长度 max 从句子中取n-max 到 n 的字符串 subword,去字典中查找是否有这个词。如果有就走(5),没有就走(6); 记住 subword,从 n-max 付值给 n,继续执行(4),直到 n=0. 将 max-1,再执行(4)。 最大概率分词法:列出可能的拆分结果,查表,结果大的,为最终结果。 基本细想: 一个待切分的汉字串可能包含多种分词结果 将其中概率最大的那个作为该字串的分词结果 分词算法: 对一个待分词的字串 S,按照从左到右的顺序取出全部候选词w1, w2 , … ,wi, … , wn ; 到词典中查出每个候选词 的概率值P(wi) ,并记录每个候选词的全部左邻词; 按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词; 如果当前词wn是字串S的尾词,且累计概率P (wn)最大,则wn 就是S的终点词; 从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。 计算准确率、召回率和F值[计算题]Precision):结果中的正确样例数与结果中全部样例总数的比值。 召回率 R(Recall):结果中的正确样例数与实际存在的正确样例数的比值。 F 值:准确率和召回率的加权平均,一般用 F1。 (注意:让求的是 F1 还是 F 其它,然后带入相应的值β值。) 举例: 用户利用某信息检索系统在资料库中检索与和服相关的文章。系统返回给用户5篇文章:《日本和服简介》、《和服的穿着方法》、《在日本试穿和服》、《新款和服特价销售》、《青岛东和服装厂简介》。已知资料库中共有40篇文章,其中有8篇与和服有关的。请计算此次检索的准确率、召回率和F1值。 答:结果中正确的样例数为:4 结果集中的总样例数为:5 P 准确率 = 4/5*100%=80% 实际存在的正确的样例数为 8 R 召回率 = 4/8*100%=50% F1=(2*80%*50%)/(80%+50%)=(2*4/5*1/2)/(4/5+1/2)=(4/5)/(13/10)=8/13 第三讲 信息检索模型 信息检索系统的基本模式[简答题] 布尔模型的原理[简答题]“and”、“or”、“not”来组织关键词表达式。 联系机制为:布尔表达式转换为集合表达式,即布尔算子and 、or、not替换为交、并、补。 在结果集合里的文本是相关的,其他是不相关的。 利用布尔模型的有哪些信誉好的足球投注网站引擎的[综合题] 文献表示为不带权重的标引词的集合; 查询表示为标引词的布尔表达式,用逻辑符“and”、“or”、“not”来组织关键词表达式。 联系机制为:布尔表达式转换为集合表达式,即布尔算子and 、or、not替换为交、并、补。 在结果集合里的文本是相关的,其他是不相关的 D(文献表示) 表示为不带权重的标引词的集合,或者说,二值的标引词权重 wi,j=0 或者 wi,j=1 Q(查询) 表示为标引词的布尔表达式 用 and、or、not 连接标引词构成查询 F(联系机制) 布尔表达式转换为集合表达式 布尔算字 and、or、not 替换交、并、补 R(排序) 对于每个标引词ki,得到一个文本的集合 Dki={dj|wi,j} 在结果集合里的文本是相关的,其他是不相关的。 向量空间模型的原理[简答题]W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组。 要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。 计算用向量表示的网页的相似度[计算题] 注意:权值的值实际上是由 tf*Idf 算出来的,如果题目中未给出相应的值,则可以通过tf*Idf 算出来,具体算法见13题。 计算特征项权重(tf*idf方法)[计算题]利用模型的有哪些信誉好的足球投注网站引擎的[综合题]W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组。要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。 D(文献表示) 文本表示为带权重的标引词的集合,dj={w1,j, w2,j, …, wt,j} 权重表示该标引词与该文本的相关程度 Q(查询) 查询也表示为带权重的标引词的集合, q={w1,q, w2

文档评论(0)

152****5013 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档