1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
系统测评

* 主要的解决办法—翻译 方式一 将所有文档翻译成源语言,采用单语检索的方法 优点 检索结果可读 文档的翻译理论上相对准确(可以依靠上下文解决翻译中的歧义) 缺点 翻译量巨大,翻译的时间消耗较大 在多语言检索情况下,需要多个语言对之间的翻译工具 * 主要的解决办法—翻译 方式二 将查询翻译成目标语言 优点 翻译量小,相对灵活 缺点 由于查询通常很短,翻译质量难易保证 如果用户不懂目标语言,仍然需要把结果再翻译成源语言 查询翻译方法是目前CLIR中的主要方法。 * 翻译的主要做法 基于词典的方法 通过查词典(双语词典、同义词词典、统计词典等),将源语言的Term变成目标语言的Term 基于机器翻译工具的方法 通过机器翻译工具,将源语言翻译成目标语言 基于并行语料库的方法 对于一个查询,先在一个并行语料库中有哪些信誉好的足球投注网站,利用并行语料之间的对齐关系,将源语言有哪些信誉好的足球投注网站结果映射成目标语言 * 基于词典的方法 * 基于MT的方法 * 基于并行语料库的方法 * CLIR中两个主要技术难点 一词多译 一个词或者片断有多个可能的译文。一般通过上下文进行排歧 未定义词(Out Of Vocabulary,OOV)问题 词典里找不到这个词 一般通过并行语料获取及对齐等方法来解决 * 多语言检索的实现 separate-retrieval-then-merging 将查询翻译成各种语言,分别进行单语检索,最后将结果合并 middle-language 将查询翻译成某个中间语言,然后将中间语言查询翻译到目标语言分别进行检索,最后将结果合并 类单语言检索方法 将原始查询和翻译到每种目标语言的查询综合在一起,在所有文档库上进行单语检索 * 国际CLIR评测 TREC中CLIR评测 1997年开始设立CLIR评测,近几年取消,转入CLEF和NTCIR CLEF(CrossLanguage Evaluation Forum) 主要针对欧洲语言对之间的检索评测 NTCIR(NII-NACSIS Test Collection for IR Systems )会议 日本国立信息研究所(National Institute of Informatics)主办的信息检索测试集评测会议。主要针对英文及主要亚洲语言的检索评测 * 问答系统概念 问答系统(Question Answering,QA) 给定一个问题,从大规模文档集合中返回答案的系统 例子:谁获得2006年多哈亚运会男子体操全能冠军?杨威 比有哪些信誉好的足球投注网站引擎更进一步,不仅仅返回相关的文档,而且直接返回正确答案 * 问答系统概念 根据文档集涉及的领域,QA可以分成 Open domain QA 文档集涉及的领域非常广泛,体裁风格也不一致,是各种领域、各种风格文档的综合体。如面向整个WEB的QA Restricted Domain QA 文档集只涉及某个领域或行业(比如天气预报)、或者较固定书写风格的文档集(产品FAQ、百科全书) * QA系统的两种做法 方法一:模板匹配(Template Matching)方法 模板:[NP] 是谁? 孙中山是谁? 美国总统是谁? 一个问题提出以后,从已有的模板库中进行匹配,匹配上以后,根据模板对应的处理方法调处理过程 严格地说,此类系统不算是QA系统。如:ASKJeeves * QA系统的两种做法 方法二:先分析问题的类型,然后从可能存在答案的结果文档中抽取答案 TREC QA系统:大部分系统采用了此种类型,先通过问题类型分析模块确定问题的类型,然后通过检索返回可能的文档或者段落,最后在这些文档或段落中抽取相应类型的问题答案 * 问题类型的例子 * 问题子类型的一个例子 * 问题类型的判定 人工规则 人工总结出一些判定规则,如:who??找人 机器学习的方法 建立训练语料,通过统计学习的方法学习到统计规则 * 答案的抽取(以事实型问题为例) 命名实体的识别 人名、地名、机构名等等命名实体的识别 命名实体的评分 为命名实体打分,找出最可能的命名实体 * QA 评测 1999年开始,QA加入到TREC评测中。一致延续到今年 基于事实型的问题可以达到一定的正确度,但是其他类型的问题要解决还为时过早 第七讲 并行检索与跨语言检索 陆铭 richard.lu@shu.edu.cn mingler.ccshu.org * 内容提要 并行及分布式计算 并行检索 分布式检索 跨语言检索 问答系统 * 背景 一方面,网络上地理位置分散的异构数字化信息的规模非常大。 另一方面,尽管计算机软硬件技术发展迅速,但是对于大规模信息来说,单个CPU、单台计算机的处理能力仍然相对非常有限。 因此,需要引入多个CPU、多台计

文档评论(0)

teda + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档