统计的机械翻訳、対訳抽出-中川研究室-东京大学.ppt

下载文档 降价啦

1
0
约1.13万字
约 66页
2017-08-17 发布于天津
举报
版权申诉
保障服务

统计的机械翻訳、対訳抽出-中川研究室-东京大学.ppt

1、本文档共66页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

東京大学　情報基盤センター情報理工学系研究科、情報学府　兼担）中川裕志入力文：私はりんごを食べた。 ?形態素解析?構文解析 noun verb noun ? subj predicate object ?意味解析 (action=食べる, agent=私, target=りんご, time=past) 英語の語彙に変換（つまり意味表現のレベルないしはそれに近い深さで変換　　?対訳辞書利用 (action=eat, agent=I, target=an apple, time=past) 構文および形態素の生成（語順の変換）して翻訳出力を得る。 ?対訳辞書利用 noun=I, verb（past)=ate, noun=an apple 出力文： I ate an apple. 意味のレベルで精密に日英が同一であることが前提だった。また、形態素解析、構文解析、意味解析が正確に動作すると想定している。しかし、なかなかそうとも言い切れない意味レベルでの概念が一致しない例湯　? hot water、　もったいない?? 、 checkという習慣が日本にない！対訳辞書日本語?意味りんご ? APPLE 意味?英語 ALLPE? if bear noun or singular: apple if plural: apples 単数の場合には an apple,複数なら applesを選ぶのは、構文および形態素のレベル翻訳対の例文が類似検索可能な形でデータベース化例：私はみかんを食べた。 ?? I ate an orange. 入力文：私はりんごを食べた。翻訳対データベースから類似した日本語例文を検索私はみかんを食べた。違っている部分みかんをりんごに置き換えさらに日英辞書でりんごをan appleに置き換え結果出力：I ate an apple. 当然ながら、冠詞の選択などは文法規則によって行う。つまり、相当程度に従来の構文規則や、形態素解析技術と共同することになる。類似検索の部分が重要。ここで構文解析を使うことも可能だが、だんだん古典的な機械翻訳に近づく。翻訳対を集めれれば集めるほどが翻訳の質があがる。この収集作業は機械的にできる。統計的機械翻訳Statistic Machine Translation (SMT) 言語的知識を全く使わずに対訳を得る。アンチ言語学理論 2言語並行コーパスが蓄積文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付け、すなわち対訳を自動的に抽出文同士の対応はあるが、単語列同士の対応は不明探索空間が膨大 IBMの Peter Brown，S. Della Pietra, V. Della Pietra, Robert Mercerらの1993年のCLの論文“The Mathematics of Statistical Machine Translation:Parameter Estimation”を中心に解説 Bayesの定理 Canadian Hansard : French-English Bilingual corpus フランス語の単語列:f に対して妥当な英語の単語列 : e　を求める Given French string: f, find e^=arg maxePr(e|f) 種々のfに対応しそうなeはやたらと多い！！ then なぜPr(e|f)ではなく、Pr(f|e)×Pr(e)か？種々のfに対応しそうなeはやたらと多い！！対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の単語列　f　に対して、対応すべき正しい英語を求めるのが目的 Pr(e|f)直接では、正しい英単語列eに高い確率が割り当てられることが保証されない。正しい英文という要因を直接考慮するためにPr(e)を別個の情報源から得て利用する。 Alignment：対応 The1 poor2 don’t3 have4 any5 money6 Les1 pauvres2 sont3 demunis4 (Les pauvres sont demunis | The(1) poor(2) don’t(3,4) have(3,4) any(3,4) money(3,4)) =A(e,f)=a ? e,fはここでは文記法 Alignmentも考慮したPr(f,a|e) 以後はPr(f,a,|e)を評価する方法 IBM Model 1 このモデルでは、英、仏文の単語の出現順序には相関