网站大量收购闲置独家精品文档,联系QQ:2885784924

机器翻译原理.ppt

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

单语句法分析指导的双语结构对齐(2)定义代价函数Fe(s,t)三种匹配情况She/1[is/2[a/3lovely/4girl/5]]./6]?越界分析:(1,2),(1,3),(2,3),(2,5)…?定界分析:(1,6),(2,5),(3,5)?界内分析:(3,4),(4,5)修正后的局部最优函数用动态规划算法(DP)求解最优双语分析树第37页,共64页,星期六,2024年,5月单语句法分析指导的双语结构对齐(3)实验:1000句对评价:语法准则Thestudentwillgetapen.这学生将得到一支钢笔。合语法:“Thestudent--这学生”,“willget--将得到”,“apen--一支钢笔”不合语法:“studentwill--学生将”,“geta--得到一支”共有3889个标准对齐ExperimentnoPEPEP+CBEP+CP正确率(%)68.8285.5090.5688.87第38页,共64页,星期六,2024年,5月单语句法分析指导的双语结构对齐(4)1.[Mr./先生Chen/陈BNP[is/是[the/erepresentative/代表]BNPof/的[our/我们company/公司]BNPPPNP]VP./。]S2.[Spring/春天[is/是[the/efirst/第一e/个season/季节]BNPin/里[a/一year/年]BNPPPX]VP./。]S3.[[The/ewindow/窗子]BNP[is/e[e/更narrower/狭窄][than/比[the/edoor/门]BNP]PPADJP]VP./。]S4.[[The/epoliceman/警察]BNP[who/e[reported/报告[the/这e/一accident/事故]BNP]VPe/的]SBARNP[thinks/认为[it/那[was/是[Tom/汤姆s/的fault/错]BNP]VP]S]VP./。]S5.[[The/eBeijing/北京zoo/动物园]BNP[is/是[the/elargest/最大e/的zoo/动物园]BNP[I/我[e/所have/eever/evisited/参观e/过e/的]VBP]SNP]VP./。]S第39页,共64页,星期六,2024年,5月翻译知识获取双语语料库及其对齐技术直接利用双语语料库进行机器翻译的研究间接利用双语语料库获取翻译知识的研究第40页,共64页,星期六,2024年,5月直接利用双语语料库进行机器翻译的研究(1)基于统计的机器翻译(Statistics-basedMT,SBMT) e’=argmaxP(e|c)=argmaxP(e)P(c|e)/P(c)=argmaxP(e)P(c|e)P(e):语言模型P(c|e):翻译模型IBM的Brown等人实现了完全基于统计方法的机器翻译系统?以大规模双语语料库为基础(3百万句对)?建立统计的翻译模型?概率统计是分析和生成过程中的唯一方法?没有正确和不正确的翻译这样的概念,只有可能性大小的译文?不涉及任何语言学内容?48%的正确率第41页,共64页,星期六,2024年,5月直接利用双语语料库进行机器翻译的研究(2)基于统计的机器翻译:Brown的5各翻译模型模型1:对齐概率仅依赖于其中每个双语词对的概率;模型2:对齐概率不仅依赖于每个双语词对的概率,还依赖于每个词对出现位置之间的概率;模型3:计算了和每个源语词相关的单词数量;模型4和模型5:同时计算了这些词的数量和这些词本身。这些模型在训练中都使用了统计逼近的方法。第42页,共64页,星期六,2024年,5月直接利用双语语料库进行机器翻译的研究(3)基于统计的机器翻译:尽管IBM的工作是一种新的方法,可是一些学者也对这种“纯粹的”统计方法提出了异议。他们认为必须引入高层语言模型;并且认为这种方法不一定能很好地作用于另一对语言(IBM工作的对象是英语和法语),也不能产生高质量的MT,除非所有基于

文档评论(0)

xiaoyao2022 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档