第三章_信息检索评价.ppt

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章_信息检索评价

第三章:信息检索系统的评价 任飞亮 东北大学自然语言处理实验室 2010 * * * * * * * * 其他测度方法 调和平均值 E评价指标 面向用户的测度方法 面向用户的测度方法 覆盖率:在用户已知的相关文档集合中,检出相关文档所占的比例 新颖率:检出的相关文献中用户未知的相关文献所占的比例 U为用户已知的相关文档集 Rk为系统检索出的文档集合A与集合U的交集 Ru为检出的用户以前未知的相关文档集 图示覆盖率和新颖率 相关文献|R| 结果集|A| 用户已知的相关文献|U| 检出的用户以前未知的相关文献|Ru| 检出的用户已知的相关文献|Rk| 内容提要 引言 性能评价指标 基本评价指标 单值评价指标 特殊的评价方法 其他评价方法 国外信息检索评测 信息检索评价的研究 国外的评测 统一评测的意义 同一个算法在不同的数据条件下得到的结果差异很大 没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法 数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集,节省了各个研究者重复采集数据而造成的重复付出,对整个领域的科学研究和技术进步起到很大的推动作用。 通过技术评测可以提出新的研究问题。 国外著名的评测 TREC NTCIR CLEF 国外的评测 统一评测的意义 同一个算法在不同的数据条件下得到的结果差异很大 没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法 数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集,节省了各个研究者重复采集数据而造成的重复付出,对整个领域的科学研究和技术进步起到很大的推动作用。 通过技术评测可以提出新的研究问题。 国外著名的评测 TREC NTCIR CLEF TREC评测 TREC评测 文本检索会议(Text Retrieval Conference,TREC)是信息检索( IR) 界为进行检索系统和用户评价而举行的活动, 它由美国国家标准技术协会(NIST) 和美国高级研究计划局(DARPA)(美国国防部) 共同资助,开始于1992年。 主要致力于以下几个方面 促进基于大规模测试文档集的检索研究。 为了反映现实系统的主题多样性,必须保证有足够的实验语料集,TREC的文献集合一般在2G左右,包括50~100万篇文献; 建立一个开放的论坛来交流研究思想,使与会者能交流研究的成果与心得,促进企业学术机构和政府部门之间的交流沟通。 通过展示检索方法在解决实际问题中的有效性,来加速实验室技术的商业化产品转换。 通过提供大型的语料库、统一的测试程序,有系统地整理评测结果,达到改善文本检索评价和检验方法的目标。 TREC评测任务 早期的评测任务: Ad hoc检索任务(传统的批处理检索) 类似图书馆里的书籍检索,即书籍库(数据库、文档集合)相对稳定不变,而用户的查询要求是千变万化的。 主要研究任务包括对大数据库的索引查询、查询的扩展等; 固定主题检索任务(Information Routing) 用户的查询要求相对稳定,而文档集常常发生变化 研究的主要任务不是索引,而是对用户兴趣的建模,即如何为用户兴趣建立合适的数学模型; TREC评测任务 新的任务 博客任务:研究在博客上的信息检索方法 企业检索任务:研究企业有哪些信誉好的足球投注网站问题,即满足用户对组织机构的相关数据的信息检索需求; 基因数据检索任务: 法律文档检索任务:目的是提高律师检索电子文档集效率的技术 问答系统任务:要求系统能针对问题给出具体而明确的答案 垃圾邮件过滤任务 超大规模文档检索任务:目的是研究是否以及什么时候把传统信息检索中基于测试集的评价方法应用于超大规模文档集。 TREC评测影响 在测试集方法:TREC评测的测试集开创了大量文档集、结构化的查询、务实的相关性判断,被信息检索的研究团体广泛采用; 在评测任务方面:TREC致力于持续地研究发展许多新的测试任务,为新的热点研究提供了急需的数据和评价体系,促进了这些技术的快速发展。 在会议及论坛方面:TREC会议的举行使得研究者能透过系统测试以及相互间的观摩切磋,使系统的检索技术得到提高,并获得更高的检索效益。 国外的评测 统一评测的意义 同一个算法在不同的数据条件下得到的结果差异很大 没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法 数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集,节省了各个研究者重复采集数据而造成的重复付出,对整个领域的科学研究和技术进步起到很大的推动作用。 通过技术评测可以提出新的研究问题。 国外著名的评测

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档