网站大量收购闲置独家精品文档,联系QQ:2885784924

第7章 跨语言信息检索技术.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7章 跨语言信息检索技术

第7章 跨语言信息检索技术;目录;7.1 跨语言信息检索技术概述 跨语言信息检索(Cross Language Information Retrieval,CLIR)就是通过一种语言提问来检索出用另一种语言呈现的信息,是一种跨越语言界限进行信息检索的活动。; 国际上跨语言信息检索研究领域每年定期会召开一些国际会议,这些会议从不同方面反映了当今跨语言信息检索的研究热点和发展趋势。;(1) 检索词与检索到的信息内容分属于不同的语言。 (2) 检索词的歧义和多义性。 (3) 查询词的切分。 (4) 信息内容的多语言性。 (5) 输出结果的排序组织。 (6) 对多语言资源的依赖。;7.2跨语言信息检索技术的研究发展;接上页;7.3 跨语言信息检索技术的基本框架;7.4跨语言信息检索技术及其分类;7.4.1 同源匹配技术;7.4.2 查询翻译技术;1)翻译模糊性控制;2)查询翻译技术分类; 文档的索引是通过概念识别器的匹配实现的。受控词汇跨语言检索系统中包含两个过程:将文档与查询条件都用受控词汇来表示。对文档的标识其实是对文档的翻译过程,而对查询条件用受控词汇来构建其实是对查询条件翻译的过程。;2)查询翻译技术分类;2.查询翻译技术;(1)基于机读字典的查询翻译;(2)基于多语主题词表、本体的查询翻译方法;2)基于机器翻译的查询翻译方法;3)基于语料库的查询翻译方法;平行语料库依据对齐程度的分类:; 平行语料库在查询翻译中的主要应用是构建双语对照词典主要包括两步:; 使用可比语料库最著名的方法就是相似性叙词表。有学者利用一个瑞典语新闻语料库和英语新闻语料库,构建双语可比语料库,从中提取出双语的相似性主题词表信息并且用于查询翻译中。;4)混合方法;三种资源结合;3.查询翻译过程中的基本问题;依据这三个要素,查询翻译过程中所遇到的基本问题也分为三个方面:;1).查询式的词法分析;2)查询式翻译时的歧义问题;跨语言信息检索中德的歧义来自源语言和目标语言两个方面,在处理上的难度很大。; 在自然语言中很多短语、习惯用语等通常有固定的语义,其意义很多都不等于其中词的语义的简单组合。因此当把其按照单个词进行翻译时失掉其本来的语义信???。 JIanfeng Gao 等设计了三个统计模型:如有图 ;;3)翻译工具存在的问题;4.查询翻译的未来发展方向;7.4.3 中间语言翻译方法;7.4.4 文献翻译;7.4.5 不翻译技术;潜在语义索引与广义向量空间模型的对比;7.4.6 基于媒体对象的跨语言信息检索分类; 根据检索的媒体对象类型, 跨语言信息检索的分类比较:;7.5 跨语言信息检索的主要研究热点;几种消歧研究的方法及效果:;7.5.2 跨语言信息检索中的翻译资源构建研究;7.5.3跨语言信息检索中的专有名词识别与音译研究 ;几种音译的研究;7.5.4 跨语言信息检索中的翻译技术研究;跨语言信息检索中的翻译技术;7.5.5 跨语言信息检索中的系统评价研究; ;1.跨语言信息检索评价模型;2.跨语言信息检索效率评价指标;(1)查全率;(2)查准率;3.跨语言信息检索的经典测试与评价平台;4.跨语言信息检索测试集; 其中最著名的当属TREC测试数据集合,NTCIR和CLEF基本沿用TREC的格式和定义。;7.5.6 有关中英文跨语言信息检索的研究;有关中英文跨语言信息检索的研究;

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档