- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器翻译中汉语动结式生成的过程和困难论文.doc
机器翻译中汉语动结式生成的过程和困难论文
1.引言
当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。
原因是什么呢?从语言研究的角度来说,机器翻译系统分析、理解和生成自然语言的能力都还不到位,处理不了的语言现象很多:有的是句子结构层次弄错了.freel kick spoil 3 pairs of shoes.
这段路把妈妈走累了。*The ake mother tired after the other tired(ly).
*This road mother ade the question plicated.他已使问题复杂化。(他把问题搞复杂了。)
The children have had enough to eat.孩子们已吃了足够。(孩子们吃饱了。)
这样的译文对机器翻译来说就算不错了,只是念起来有些别扭,有点“机器味儿”。
3.动结式的生成过程
机器翻译译文生成的任务是从要表达的意义出发,经过选择词语、确定词语间的语义关系、确定目标语句子的句法结构等步骤,最终输出与源语言句子在意义上等价的表层字符串。对于动结式的生成,有以下几步:
(一)确定要表达的意思 (四)整合语义结构
(二)选择词语、分派语义角色 (五)选择句法表现形式
(三)判断合法性 (六)处理表层词语
3.1 制定要表达的意思
汉语动结式述语结构表达的是一种“动作—结果”事件。比如要生成的意思是:小王读了这篇文章,结果小王懂了这篇文章。在汉语生成开始之前,机器翻译系统用中介语言逻辑表达式表示要生成的译文是什么意思。一般来说,如果这个表达式里面有两个谓词结构,并且二者之间有“动作—结果”关系,就可以进入汉语动结式的生成过程。
中介语言逻辑表达式是从源语(譬如英语)分析得到的,源语中的述谓结构和“动作—结果”关系会在表达式中有所体现。但这并不是判断能否生成汉语动结式的惟一依据。我们在上一节提到,英语往往没有相当于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起来,这是就句法结构来说的。实际上,由于英、汉语之间在“动作—结果”关系表达上的差异,(注:戴浩一(2002)指出:“动作—结果”基模虽然在汉、英语中都存在,但是在汉语中占主导地位,而在英语中占次要甚至边缘地位。而且,这个基模在两个语言对客观情况的构建上也因经验的概念化不同而呈现不同的形式。)在从源语分析得来的语义表达式里,可以用汉语动结式生成的“动作—结果”关系有时是隐含的,与此相关的述谓关系也有不同的表现形式。比如:
英语对动作对象的描写在汉语中有时可以表达成动作的结果:
She married the e.
我英语学晚了。 It .
沙发把你坐懒了。You are being lazy on the sofa.
所以我们需要一组规则,在要生成的语义表达式里判断有没有应该用汉语动结式表达的述谓关系。在这组规则里,除了两个谓词结构及其显性的“动作—结果”关系符合判断条件以外,还应该有能够识别和提取隐含的“动作—结果”关系及其述谓结构的条件。这就需要研究英语和汉语在表达“动作—结果”关系时的差异。这种差异有时在某种类别下表现出来,有时又很个性化,只跟具体词语有关。目前机器翻译系统还没有找到这样的规则。所以我们就暂时只能看到“她嫁给了错误的人”和“他进了错误的门”这样的译文。
3.2 选择词语
选择词语需要有一部用于信息处理的汉语词典,告诉我们词语和它们的意义,以及它们的用法(比如,谓词的配价结构及其论元的限制条件)。对于前面的例子,需要先在词典里选出“小王”、“读”、“懂”、“文章”这些词,然后根据词语的意义和逻辑关系为它们分派语义角色。这些词在中介语言逻辑表达式里是实体和谓词。“了”、“结果”、“这”等是算子或关系,把它们转成词汇形式还需要另外的分析和处理。词语选择和语义角色分派的结果可以表示成树形图或特征集合等形式。
附图
图2 词语选择和角色分派的结果
Agen表示施事,Pred表示谓词,Pati表示受事,Cont表示内容,Expe表示经验者(当事)。
即使有一部详尽的词典,要让机器根据意义选择词语也不是一件容易的事情。我们经常需要在几个同义词或近义词当中进行取舍。比如,汉语的“看”有read的意思,用它来表达我们要生成的意思比“读”更地道。根据什么样的规则选择“看”,不选择“读”?目前汉语词汇和语义的研究还不能形式化地回答这个问
您可能关注的文档
- 未来太阳能光伏并网发电对电网的影响论文.doc
- 未来学校模式:复合网络中心论文.doc
- 未来民法典的体系构想论文.doc
- 未来社会:一种可能的理想图景论文.doc
- 未来金融监管:环境、框架与方法论文.doc
- 未注册商标法律保护制度之国际比较及对我国的借鉴意义论文.doc
- 未竞的白话文:围绕着“音”而展开的汉语新诗史论文.doc
- 未经清算而解散公司的法律责任研究论文.doc
- 未遂犯刑事责任归结论文.doc
- 未雨绸缪:关于我国电子商务税收对策的思考论文.doc
- 山南市2024-2025学年高三毕业班教学质量检测试题试卷数学试题含解析.doc
- 山东淄博博山2025届初三化学试题9月24日第4周测试题含解析.doc
- 山南市2023-2024学年中考二模语文试题含解析.doc
- 山东新泰莆田市级名校2025年校初三年级四月考试英语试题含答案.doc
- 山东威海市14中学2024届英语七年级第二学期期末综合测试试题含答案.doc
- 山东枣庄市实验中学2024年英语七下期末监测试题含答案.doc
- 山南地区措美县2025届三年级数学第一学期期末调研试题含解析.doc
- 山东枣庄2025届初三第三次模拟考试(5月)语文试题含解析.doc
- 山西晋中学市榆次区重点达标名校2024-2025学年初三下期始考语文试题含解析.doc
- 山西2024年小升初数学自主招生备考卷含解析.doc
文档评论(0)