统计的机械翻訳、対訳抽出-中川研究室-东京大学.ppt

统计的机械翻訳、対訳抽出-中川研究室-东京大学.ppt

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计的机械翻訳、対訳抽出-中川研究室-东京大学.ppt

東京大学 情報基盤センター 情報理工学系研究科、情報学府 兼担) 中川裕志 入力文:私はりんごを食べた。 ?形態素解析?構文解析 noun verb noun ? subj predicate object ?意味解析 (action=食べる, agent=私, target=りんご, time=past) 英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  ?対訳辞書利用 (action=eat, agent=I, target=an apple, time=past) 構文および形態素の生成(語順の変換)して翻訳出力を得る。 ?対訳辞書利用 noun=I, verb(past)=ate, noun=an apple 出力文: I ate an apple. 意味のレベルで精密に日英が同一であることが前提だった。 また、形態素解析、構文解析、意味解析が正確に動作すると想定している。 しかし、なかなかそうとも言い切れない 意味レベルでの概念が一致しない例 湯 ? hot water、  もったいない?? 、 checkという習慣が日本にない! 対訳辞書 日本語?意味 りんご ? APPLE 意味?英語 ALLPE? if bear noun or singular: apple if plural: apples 単数の場合には an apple,複数なら applesを選ぶのは、構文および形態素のレベル 翻訳対の例文が類似検索可能な形でデータベース化 例:私はみかんを食べた。 ?? I ate an orange. 入力文:私はりんごを食べた。 翻訳対データベースから類似した日本語例文を検索 私はみかんを食べた。 違っている部分みかんをりんごに置き換え さらに日英辞書でりんごをan appleに置き換え 結果出力:I ate an apple. 当然ながら、冠詞の選択などは文法規則によって行う。つまり、相当程度に従来の構文規則や、形態素解析技術と共同することになる。 類似検索の部分が重要。ここで構文解析を使うことも可能だが、だんだん古典的な機械翻訳に近づく。 翻訳対を集めれれば集めるほどが翻訳の質があがる。 この収集作業は機械的にできる。 統計的機械翻訳 Statistic Machine Translation (SMT) 言語的知識を全く使わずに対訳を得る。アンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付け、すなわち対訳を自動的に抽出 文同士の対応はあるが、単語列同士の対応は不明 探索空間が膨大 IBMの Peter Brown,S. Della Pietra, V. Della Pietra, Robert Mercerらの1993年のCLの論文“The Mathematics of Statistical Machine Translation:Parameter Estimation”を中心に解説 Bayesの定理 Canadian Hansard : French-English Bilingual corpus フランス語の単語列:f に対して妥当な英語の単語列 : e を求める Given French string: f, find e^=arg maxePr(e|f) 種々のfに対応しそうなeはやたらと多い!! then なぜPr(e|f)ではなく、Pr(f|e)×Pr(e)か? 種々のfに対応しそうなeはやたらと多い!! 対訳コーパスの対訳文はやはり少数 無尽蔵に多くあるフランス語の単語列 f に対して、対応すべき正しい英語を求めるのが目的 Pr(e|f)直接では、正しい英単語列eに高い確率が割り当てられることが保証されない。 正しい英文という要因を直接考慮するためにPr(e)を別個の情報源から得て利用する。 Alignment:対応 The1 poor2 don’t3 have4 any5 money6 Les1 pauvres2 sont3 demunis4 (Les pauvres sont demunis | The(1) poor(2) don’t(3,4) have(3,4) any(3,4) money(3,4)) =A(e,f)=a ? e,fはここでは文 記法 Alignmentも考慮したPr(f,a|e) 以後はPr(f,a,|e)を評価する方法 IBM Model 1 このモデルでは、英、仏文の単語の出現順序には相関

您可能关注的文档

文档评论(0)

wendang_12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档