语料库的创建与应用.pptx

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语料库的创建与应用

语料库的创建与应用 管新潮 上海交通大学外国语学院 2016-11-23 1)语料库类型 2)语料选取原则与操作标准 3)语料库规模 4)语料句对齐标准 5)语料库的制作 6)数据挖掘 7)翻译教学 8)翻译研究 9)语料的版权 10)语料的质量 11)语料库与翻译创造力 12)语料库的应用 1)语料库类型 平行语料库:源语文本+目的语文本 双语平行语料库:英语+汉语或德语+汉语 多语平行语料库:两种以上语言 双向平行语料库:英汉+汉英 单向平行语料库:英汉或汉英 1)语料库类型 可比语料库:语料具有可比性 单语可比语料库:翻译文本+原创文本(政府工作报告英文版+美国国情咨文) 双语可比语料库:无翻译关系的双语文本(德国有限责任公司法和中华人民共和国公司法——术语) 语料可比性 1)语料库类型 翻译语料库:翻译文本 口语语料库:标注?(蒙特雷) 2)语料选取原则与操作标准 代表性或影响力原则 可及性原则 时间原则(胡开宝,2011:45-46) 质量原则 专业分类原则 2)语料选取原则与操作标准 ①原文与译文呈一一对应关系; ②原文应具备一定的文笔表现力; ③译文应符合所在国的阅读习惯和表述要求,同样具备一定的文笔表现力,而且该译文是经过认可的; ④按专题模块汇集语料,使语料文本具有同质性; ⑤选用具有代表性的语料文本; ⑥所选用的每一篇语料文本都是一个完整的单元。 2)语料选取原则与操作标准 例如:英汉医学平行语料库 以图书、论文、报告为主, 专业方向涉及微生物学、生物化学、解剖学、病理学、药理学、临床诊断学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻咽喉科学、口腔医学、皮肤病学、神经病学、精神病学、感染病学等。 3)语料库规模 BNC(Britisch National Corpus):超1亿词 COCA(Corpus of Contemporary American English):4.5亿词 DWDS( Das Digitale Wörterbuch der deutschen Sprache ):25亿词 3)语料库规模 北外汉英对应语料库:3000万字词 中国法律法规汉英平行语料库:2200万字词 莎士比亚戏剧英汉平行语料库:600万字词 英汉医学平行语料库:1000万字词 英汉科普平行语料库(郭鸿杰):1000万字词 中国英汉平行语料库(王克非):1亿字词 3)语料库规模 应用于翻译实践的语料库规模究竟要多大? 4)语料句对齐标准 学术研究 翻译实践 句子单位 4)语料句对齐标准 英文原文与中文译文的句子对齐以一一对应为主,但也允许语句一对多或多对一等情况的存在。 一般以句号、分号、问号等为分句标记,但总有例外情形存在。这里最为重要的是,必须考虑到英文在句法逻辑上是一个完整的单元,中文语句与之相应匹配。 5)语料库的制作 WORD PDF 纸质版 其他格式 5)语料库的制作 语料的降噪处理: 公式、表格、图片 “纯”文本 5)语料库的制作 对齐工具: WinAlign ParaConc Abbyy Aligner 等等 自行开发TMX-ParaConV 5)语料库的制作 保存格式: 例如TMX,TXT 目的在于多用途 5)语料库的制作 TM库的制作: 1)Word格式(WinAlign,Abbyy Aligner) 2)Xliff格式(新建记忆库、更新记忆库等) 3)Excel格式(2007版或之前版本,2009版或之后版本)——TMX Editor 5)语料库的制作 5)语料库的制作 制作语料库的有效方式: ABBYY Aligner + 自编软件 + ParaConc等 6)数据挖掘 使用英文或汉语(须经切分)单语导入WordSmith或AntConc进行词频排序 进入双语界面进行检索查询:ParaConc或Trados记忆库界面 6)数据挖掘 6)数据挖掘 专业通用词(General Words for Specific Purposes) 法律(action, award, damage) 医学(normal , management) 海洋工程(high, sea) 6)数据挖掘 Article 14 Anti-Dumping Action on Behalf of a Third Country第14条 代表第三国的反倾销诉讼( action=law suit) He was awarded $500 damages for injury he suffered in the accident.(award非“奖励”,是“法定裁定”)(damage非“损坏”,是“赔偿金”) 6)数据挖掘 Liver function tests gave normal results.肝功能检验均无异常发

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档