- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
跨语言信息检索中的语义关联研究
摘 要 论文探讨了跨语言信息检索中语义关联的5种方法技术,包括同义及近义关系推荐、概念中间语言、非翻译方法、术语抽取技术、多语本体,并探究各种方法技术的适用性。以上方法技术通过实现查询词与检索文档在概念层次上的匹配,实现跨语言信息检索中的语义关联,为后期跨语言信息检索系统构建中的语义关联实现提供借鉴。
关键词 跨语言信息检索 语义关联 本体 主题图
分类号 G254.90
DOI 10.16810/ki.1672-514X.2016.06.010
Abstract This paper discusses 5 kinds of methods and techniques about cross-language information retrieval, including synonymous relationship recommendation, concept of intermediate language, untranslated method, term extraction technology, and multilingual ontology. Their applicabilities are also explored. These methods and techniques can implement semantic relevance in cross-language information retrieval by matching queries and retrieve documents on the conceptual level, so as to provide reference for semantic association implementation in cross language information retrieval system.
Keywords Cross-language information retrieval. Semantic association. Ontology. Topic maps.
0 引言
语义关联是语义数据模型中实体之间二维关系的知识表示形式,即实体之间的复杂关系[1]。互联网用户与信息资源的多语言化、互联网信息资源的语义化是目前互联网发展的明显趋势[2]。用户使用母语或熟悉的语言检索出不同语种相关信息的跨语言信息检索应运而生。在语义关联方面,传统的信息检索多使用查询词与文档相匹配方法检索用户所需结果,因用户使用查询词相对自由,以及语言中存在一词多义、一义多词等现象,使得此种字符级匹配的检索方法容易漏检或检出冗余信息。“世界科学跨语言检索平台WorldWideScience”[3]虽能够实现多语言信息检索功能,但其仍是通过检索式与文献之间的关键词匹配完成检索,语义关联体现仍不充分。通过语义关联便于系统理解用户的检索用途,有助于用户快速定位并利用相关知识,提高信息的检索效率。本文主要从方法和技术角度出发,探讨跨语言信息检索中的语义关联的实现。
1 跨语言信息检索中的语义关联方法及技术
当前,实现跨语言信息检索中语义关联的方法和技术主要有同义及近义关系推荐、概念中间语言、非翻译方法、术语抽取技术、多语本体。
1.1 同义及近义关系推荐
同义及近义关系推荐方法能帮助用户扩展与提问式有语义关系的同义词及近义词,提高查全率。如在跨语言信息检索中常用的语言转换策略――提问式检索中,先将源语言的提问式翻译为目标语言,再在目标语言文档中进行检索,返回给用户的检索结果是目标语言。在提问式检索中,用户输入的检索词较短,可能会遗漏相同意义或相近意义的关键词,导致查全率不高。系统后台可将多语种的同义词或近义词关联起来,如以英汉对齐词典为知识库、以等值翻译词对为知识表示形式,对中文术语和英文翻译进行双向推导(利用多部英汉翻译词典,首先选择中文术语C作为入口词,推导出C的英语翻译为E,再将E翻译成中文C1,完成第一次同义推导;之后将C1翻译成英文E1,再将E1翻译为中文C2,完成第二次推导),统计中文词的出现频率,对C2的权值进行统计,计算出C1的权值,按权值的高低排序,推算出C的同义词C1[4],再将同义词翻译为目标语言进行查询,具体步骤如图1所示。
1.2 概念中间语言
概念中间语言有助于不同语种之间的映射,从而实现不同语种词汇之间的语义关联。其主要用于不能直接进行翻译的语种。一般选择应用广泛的英语作为概念中间语言。概念中间语言能确保各种语言的文献和提问式在概念层次进行匹配[5]。在此,以Cindor为例说明使用概念
文档评论(0)