5计算语言学–厦大应用语言学.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5计算语言学–厦大应用语言学

讨论:中文加个空格行不行? 八、机器翻译 (一)、机器翻译在国外的发展 1、草创时期: (1)、20世纪30年代的机械翻译 (2)、20世纪50年代计算机翻译 (3)、20世纪60年代的ALPAC报告后的萧条 2、恢复期:20世纪70年代:开始注意句法和语义的研究 3、繁荣期:20世纪70年代末至今:开始商业化。 机器翻译的繁荣期是以1976年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用性机器翻译系统TAUM-METEO正式提供天气预报服务为标志的。这个机器翻译系统投入实用之后,每小时可以翻译6万-30万个词,每天可以翻译1500-2000篇天气预报的资料,并能够通过电视、报纸立即公布。TAUM-METEO系统是机器翻译发展史上一个里程碑,它标志着机器翻译由复苏走向了繁荣。   美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已提供试用。例如,提供给美国空军的SYSTRAN系统,词典有16万8千个词干形式和13万6千个词组,可进行俄英机器翻译,每小时可翻译15万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、德英、汉法、汉英机器翻译,每小时可译30万-35万个词。SYSTRAN是目前应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。 (二)、机器翻译在中国的发展 我国是继美国、苏联、英国、之后第四个开展机器翻译的国家。 我国的机器翻译可以分作四个时期: 1、草创时期:1956-1966:主要是俄汉翻译 2、停滞时期:1966-1975: 3、复苏时期:1975-1987: 1975年11月,在中国科学技术情报研究所设立了一个由情报所、语言所和计算所等单位的工作人员组成的机器翻译协作研究组,以冶金题录5000条为试验材料,制定英汉机器翻译方案并上机试验。1978年5月,在计算所111机上进行抽样试验,抽样20条,达到了预期的效果。 1980~1985年,中国社会科学院语言所与军事科学院合作开发了JFYⅢ翻译系统,这是全国第一套全文翻译系统,主要用于军事科学用语的翻译。   中国科学院和一些大学成立了课题组进行机器翻译的研究 4、繁荣时期:1987-至今 这一时期是以“译星1号”的问世为标志的,它是我国第一个商品化的机器翻译产品。 中科院软件所的“863”成果--智能型英汉机器翻译系统(即快译通)以470万美元的价格卖给了香港权智集团。两次市场运作的成功对于国产软件商品化具有开拓性的意义,它们极大地刺激了整个国内软件市场,也为日后机器翻译形成行业起了很大的推进作用。 (三)、机器翻译存在的问题: 计算机、互联网在国内的逐渐普及,给机器翻译的发展创造了条件。但是由于无法逾越语法、语义障碍这个瓶颈,翻译的准确性离专业翻译用户的需求还相差很远,实用性远远不够,所以专业翻译软件的发展一直处于徘徊不前的状态。 目前机器翻译主要有两种形式,MT和TM。MT(machine translation)就是我们常见的基于规则的机器翻译软件,如金山快译、东方快车等,其主要用途是为了帮助英文不好的用户提供翻译参考,但准确性不高。 研究人员发现MT遇到的瓶颈,便决定在人工智能技术不会有重大突破的前提下,绕过技术上的难题,另辟蹊径,利用其他手段发展机器翻译,这就是TM(Translation Memory,翻译记忆) TM绕开了语言学的瓶颈,其原理是基于数据库,将翻译过的所有材料以句子为单位存入数据库。翻译时系统会自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,新句子则通过系统提供的翻译建议进行人工翻译。而每次翻译又为以后积累句子。对于新用户,系统会给他提供诸多专业词库,并能将以前的翻译作品进行回收存档。 作业: 1、作业: 1、汉字输入的方法? 2、计算语言学分为哪几个分支学科? 3、计算语言学的特点 4、计算机自动分词的手段有哪几种? 5、会用正向最大匹配法分词。 6、计算机分词中有哪几个难题? 7、计算机处理上歧义的类型有哪几种,怎样消解? 8、机器翻译有哪几种类型? 计算语言学 一、计算语言学的定义:是利用计算计研究和处理自然语言的学科。 狭义:指的是通过建立形式化的计算模型,用计算机分析、处理、理解并生成自然语言的学科。例:“有意见分歧” 算一算怎么切分合理 是“有意 见 分歧” 还是 : “有 意见 分歧” ? 广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。 例1:中国《红楼梦》的作者:前八十回和后四十回是不是一个人。 例2:方言亲属关系的计量: 二、计算语言学的发展: 计算语言学的研究首先是从机器翻译开始的。 1、《圣经·创世纪》中“巴

文档评论(0)

wuyoujun92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档