- 1、本文档共66页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计的机械翻訳、対訳抽出-中川研究室-东京大学.ppt
東京大学 情報基盤センター 情報理工学系研究科、情報学府 兼担) 中川裕志 入力文:私はりんごを食べた。 ?形態素解析?構文解析 noun verb noun ? subj predicate object ?意味解析 (action=食べる, agent=私, target=りんご, time=past) 英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換 ?対訳辞書利用 (action=eat, agent=I, target=an apple, time=past) 構文および形態素の生成(語順の変換)して翻訳出力を得る。 ?対訳辞書利用 noun=I, verb(past)=ate, noun=an apple 出力文: I ate an apple. 意味のレベルで精密に日英が同一であることが前提だった。 また、形態素解析、構文解析、意味解析が正確に動作すると想定している。 しかし、なかなかそうとも言い切れない 意味レベルでの概念が一致しない例 湯 ? hot water、 もったいない?? 、 checkという習慣が日本にない! 対訳辞書 日本語?意味 りんご ? APPLE 意味?英語 ALLPE? if bear noun or singular: apple if plural: apples 単数の場合には an apple,複数なら applesを選ぶのは、構文および形態素のレベル 翻訳対の例文が類似検索可能な形でデータベース化 例:私はみかんを食べた。 ?? I ate an orange. 入力文:私はりんごを食べた。 翻訳対データベースから類似した日本語例文を検索 私はみかんを食べた。 違っている部分みかんをりんごに置き換え さらに日英辞書でりんごをan appleに置き換え 結果出力:I ate an apple. 当然ながら、冠詞の選択などは文法規則によって行う。つまり、相当程度に従来の構文規則や、形態素解析技術と共同することになる。 類似検索の部分が重要。ここで構文解析を使うことも可能だが、だんだん古典的な機械翻訳に近づく。 翻訳対を集めれれば集めるほどが翻訳の質があがる。 この収集作業は機械的にできる。 統計的機械翻訳Statistic Machine Translation (SMT) 言語的知識を全く使わずに対訳を得る。アンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付け、すなわち対訳を自動的に抽出 文同士の対応はあるが、単語列同士の対応は不明 探索空間が膨大 IBMの Peter Brown,S. Della Pietra, V. Della Pietra, Robert Mercerらの1993年のCLの論文“The Mathematics of Statistical Machine Translation:Parameter Estimation”を中心に解説 Bayesの定理 Canadian Hansard : French-English Bilingual corpus フランス語の単語列:f に対して妥当な英語の単語列 : e を求める Given French string: f, find e^=arg maxePr(e|f) 種々のfに対応しそうなeはやたらと多い!! then なぜPr(e|f)ではなく、Pr(f|e)×Pr(e)か? 種々のfに対応しそうなeはやたらと多い!! 対訳コーパスの対訳文はやはり少数 無尽蔵に多くあるフランス語の単語列 f に対して、対応すべき正しい英語を求めるのが目的 Pr(e|f)直接では、正しい英単語列eに高い確率が割り当てられることが保証されない。 正しい英文という要因を直接考慮するためにPr(e)を別個の情報源から得て利用する。 Alignment:対応 The1 poor2 don’t3 have4 any5 money6 Les1 pauvres2 sont3 demunis4 (Les pauvres sont demunis | The(1) poor(2) don’t(3,4) have(3,4) any(3,4) money(3,4)) =A(e,f)=a ? e,fはここでは文 記法 Alignmentも考慮したPr(f,a|e) 以後はPr(f,a,|e)を評価する方法 IBM Model 1 このモデルでは、英、仏文の単語の出現順序には相関
您可能关注的文档
- 第五部分附件投标文件格式-鹤山信息网.doc
- 第六章物资需求一览表.doc
- 第十一篇气象第三章业务第一节气象观测一、地面气象观测中央气象.doc
- 第十一课《邓稼先》-岳阳市十中.ppt
- 第十五周资讯系统的选择.ppt
- 第十五章教参.doc
- 第四章-邵阳交通学校.doc
- 第四章MPA多优先级自适应化路由协议-智能与网络化系统研究所.doc
- 第四章外科病人的体液失调(2学时)-长江大学.ppt
- 第四章数字交换网络朱云鹏.ppt
- 2024年江西省寻乌县九上数学开学复习检测模拟试题【含答案】.doc
- 2024年江西省省宜春市袁州区数学九上开学学业水平测试模拟试题【含答案】.doc
- 《GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语》.pdf
- 中国国家标准 GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语.pdf
- GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- 《GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构》.pdf
- 中国国家标准 GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 中国国家标准 GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 《GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南》.pdf
文档评论(0)