CWMT08提供的Special语料中随机挑选200句翻译模型训练数据.PPT

下载文档 降价啦

10
0
约3.04千字
约 17页
2019-05-30 发布于天津
举报
版权申诉
保障服务

CWMT08提供的Special语料中随机挑选200句翻译模型训练数据.PPT

1、本文档共17页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中科院自动化所评测技术报告(SYSTEM II) 魏玮于东王韦华宗成庆徐波内容概要技术说明与参评系统短语系统分层短语系统基于依存树到串系统前后处理系统融合 CASIA_SYSTEM II英中翻译系统评测环境概要数据总结技术说明-短语系统典型的短语系统[2] 非单调解码，任意跳转对数线性模型 10个特征双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型扭曲概率句子长度惩罚短语惩罚方向概率[3] IBM扭曲模型[4] 技术说明-分层短语系统主要借鉴了Wei[5]的基本思想，引入分层短语的概念有效地结合了短语模型和同步上下文无关文法分层短语模型将语序信息包含在模型之中，克服了传统短语翻译的调序问题沿用了统计线性对数方法进行概率计算，使用了如下6个特征：双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型句子长度惩罚技术说明-依存树到串系统在源语言端运用依存结构进行统计翻译的新模型：Dependency-String Structure Model (DSS模型) 由于计算资源和时间的限制，参加本次评测的系统仍然沿用和分层短语相同的文法 DSS解码算法的输入是一棵树，而不是一个串，所以线图是按照树节点来索引的，而不是按照串中的跨距(span)来建立索引的解码时使用了8个特征，最后两个为依存子树的惩罚双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型句子长度惩罚符合依存子树惩罚不符合依存子树惩罚技术说明-前后处理前处理时间，数字处理模块地名，人名，机构名处理模块英文转化为小写预处理乱码过滤（中文中的乱码、英文中的乱码以及包含中文词的句子）标点符号及数字变换（中文中的部分标点符号、英文中的双字节符号及数字）英文缩写处理中文分词、英文Tokenization 后处理大小写转换：未翻译词保留其原始格式格式转换：去除中文中的空格未登录词技术说明-系统融合[6][7] 技术说明-外部技术汉语分词工具：计算所开发的ICTCLAS3.0 双语词对齐工具：GIZA++ 语言模型训练工具：SRILM工具包英文词性标注工具：Stanford Log-linear Part-Of-Speech Tagger 英文依存树分析工具：Minimum-Spanning Tree Parser (MSTparser) 参评系统-CASIA_SYSTEM II 评测环境概要软硬件环境运行时间(约4000句测试集) 数据开发数据：新闻-2007 SSMT英中翻译测试集科技-CWMT08提供的Special语料中随机挑选200句翻译模型训练数据：新闻-CWMT08提供的Common，约85万句对和；NIST MT08评测提供语料，大约670万句对科技- CWMT08提供的Special部分语料，约52万句对； NIST MT08评测提供语料，大约670万句对语言模型训练数据： LDC2007T38提供的Chinese Gigaword Third Edition，约3900万句数据过滤过滤的原则：根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中(周玉) 新闻领域将NIST语料根据新闻任务发布的训练语料进行过滤翻译模型最后使用的语料为538万句对科技领域将NIST语料根据科技任务发布的训练语料进行过滤的翻译模型最后使用的语料为468万句对语言模型也同样使用了过滤技术,最后过滤剩余1000万句测试结果新闻领域采用基于MBR解码和混淆网络解码的多系统融合策略，融合6个结果 3个来自于基于分层短语的翻译系统(HPB) 3个来自于基于依存树到串的翻译系统 (DHPB) 测试结果科技领域采用基于MBR解码和混淆网络解码的多系统融合策略，融合6个结果 2个来自于基于分层短语的翻译系统(HPB) 2个来自于基于依存树到串的翻译系统(DHPB) 2个来自于基于短语的系统 (PB) 总结新闻领域借鉴了汉英评测的经验，加入了英文命名实体翻译及前后处理模块；并且针对英文的特点，在解码中融入句法分析树，在不增加时空复杂度的前提下提高了翻译质量科技领域由于缺乏这方面的语料资源，我们只能借用新闻领域的语料，利用数据过滤技术得到相关资源但由于在选取开发集时，其规模和相关性受到制约，所以最后的参数训练并不能有效得收敛到最优如何能够充分利用有限的资源，开发出更加鲁棒的训练及解码算法，是我们下一步要思考的问题参考文献