SogouT语料库构建–标注语料-智能技术与系统国家重点室信息.ppt

SogouT语料库构建–标注语料-智能技术与系统国家重点室信息.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量规模网络信息检索评测语料库的设计与实现清华大学智能技术与系统国家重点实验室清华搜狐有哪些信誉好的足球投注网站技术联合实验室刘奕群马少平张扬茹立云年月日研究背景多少人在使用有哪些信誉好的足球投注网站引擎全球范围内的互联网用户使用有哪些信誉好的足球投注网站引擎其中超过一半的人几乎每天使用以上的中国网民使用过有哪些信誉好的足球投注网站引擎的用户将有哪些信誉好的足球投注网站引擎作为得知新网站的主要途径商用有哪些信誉好的足球投注网站引擎竞争日趋激烈市场规模约亿元从年月开始中国成为全球首个每月有哪些信誉好的足球投注网站请求超过亿次的国家研究背景有哪些信誉好的足球投注网站引擎与性能评价对有哪些信誉好的足球投注网站引擎用户选择最有效获取信息的媒介对广告商选择最有效的盈利平台对研究人员算法改进性能监控效

海量规模网络信息检索评测语料库的设计与实现 清华大学智能技术与系统国家重点实验室 清华—搜狐有哪些信誉好的足球投注网站技术联合实验室 刘奕群 马少平 张扬 茹立云 2008年11月16日 研究背景 多少人在使用有哪些信誉好的足球投注网站引擎 全球范围内84%的互联网用户使用有哪些信誉好的足球投注网站引擎,其中超过一半的人几乎每天使用。 95%以上的中国网民使用过有哪些信誉好的足球投注网站引擎,84.5%的用户将有哪些信誉好的足球投注网站引擎作为得知新网站的主要途径。 商用有哪些信誉好的足球投注网站引擎竞争日趋激烈(市场规模约56亿元)。 从2007年9月开始,中国成为全球首个每月有哪些信誉好的足球投注网站请求超过100亿次的国家 研究背景 有哪些信誉好的足球投注网站引擎与性能评价 对有哪些信誉好的足球投注网站引擎用户:选择最有效获取信息的媒介 对广告商:选择最有效的盈利平台 对研究人员:算法改进、性能监控 效果评价是信息检索相关研究的基础内容 评价在信息检索系统的研发中一直处于核心的地位,以致于算法与它们的效果评价方式是合二为一的。 (Saracevic, 1995) 研究背景 如何对网络信息检索系统进行评价 Cranfield评价方法 被应用在包括TREC在内的几乎所有 主流的信息检索研究工作中。 评价组成 (核心:评价语料库) 文本语料,查询语料,标注语料 Cranfield评价方式的优势 有效控制系统变量 可以跨系统比较的评价结果 研究背景 网络信息检索评测语料库 建立评测语料库的必要性 信息检索是实证学科 真实规模的评测语料是算法有效性的保证 研究人员各自独立构建存在困难 海量网络资源抓取 真实用户需求获取 大规模用户查询的答案标注 建立评测语料库的可能性 产业界与研究界的合作 有哪些信誉好的足球投注网站引擎日志被合理应用 已有的评测语料库相关研究 文本信息检索会议(TREC) NIST组织的研讨文本检索技术的国际性论坛 大规模文本检索系统的标准评测平台 与网络信息检索相关的评测语料 VLC track (VLC, VLC2, WT2g, WT10g) 6 years, 300 topics, 100gB Web track (.GOV corpus) 3 years, 550 topics, 1.25 M pages, 18gB Terabyte track (.GOV2 corpus) 3 years, 1800 topics, 27 M pages, 400gB 已有的评测语料库相关研究 863中文信息处理与智能人机接口评测 语料库规模 30G 数据 30个查询,pooling方式确定答案 4个系统参加评测 现场评测 参与系统少 侧重系统稳定性和效率 已有的评测语料库相关研究 SEWM评测 北京大学网络实验室组织 类似TREC的评测架构 文本语料库:CWT100g, CWT200g 去重、去除垃圾,37M网页 查询语料库:来自天网查询日志 2005-2007 三年的时间 1185 导航类查询 285 信息类查询 标注方式:人工标注,pooling方法 已有的评测语料库相关研究 经验总结 文本语料 抓取相对高质量的网络数据 VLC2 = WT10g,.GOV, .GOV2, CWT200g 查询语料 真实反映用户需求 TREC Web, Terabyte, SEWM 标注语料 规模保证 TREC million query track: efficiency, not effectiveness 已有的评测语料库相关研究 主要困难 文本语料库构建 规模问题 Google (8 billion +), Yahoo! (20 billion +), Sogou (10 billion +) 与中文用户实际需求量匹配:100 Million量级 达到100 Million/Terabyte量级,保证研究成果的可信性 网页质量筛选 网页质量相对较高:重复语料、垃圾语料的处理。 辅助语料的构建问题 链接关系语料 点击日志信息 网络信息检索评测集合 主要困难 查询语料库构建 规模问题 有充分的代表性 考虑到标注工作量 查询样例选择 真实用户需求 有充分的代表性 覆盖不同用户信息需求 已有的评测语料库相关研究 主要困难 标注语料库构建 Voorhees 估计,对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间 TREC提出pooling方法,在保证评价结果可靠性的基础上大大减少了评判工作量 缺点:处理的查询数目少,针对小规模的查询集合,仍需要耗费十余名标注人员1-2个月的工作时间 SogouT语料库构建 设计思路 海量规模、符合大多数研究机构的处理能力 能够代表中文互联网的基本情况 能够代表中文有哪些信誉好的足球投注网站引擎用户的需求情况 客观全面评价网络信息检索系统性能 实现思路 利用有哪些信誉好的足球投注网站引擎资源 网页抓取、查询日志获取、网页质量评估数据获取 使用自动化的查询语料标注方法 SogouT语料库构建

您可能关注的文档

文档评论(0)

zhaohuifei + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档