应用混淆音矩阵之中英文音译词组自动抽取.PDF

应用混淆音矩阵之中英文音译词组自动抽取.PDF

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用混淆音矩阵之中英文音译词组自动抽取

應用混淆音矩陣之中英文音譯詞組自動抽取 郭金喜1,2 楊英魁2 1 中華電信研究所 2 國立台灣科技大學電機系 j skuo@.tw ykyang@.tw 摘要 機器音譯(Machine Transliteration)是機器翻譯中重要的一環,因為許多文章中常有人名 、地名及組織名等專有名詞夾雜其中,雖然經由查閱預先整理之詞典可以解決部分的問題, 但是這些專有名詞數量隨時間不斷的增加及成長 ,而辭典的整理既費時又費力 ,透過音譯詞 組自動抽取(Transliterated-Term Pair Extraction) ,可動態補充辭典內容之不足。有足夠的中英 文音譯詞組做為訓練語料之後,則可建 立一中英文音節對 (Syllable Mapping) 系統 ,應用於 中英文詞組音譯,但問題是該如何快速獲取足夠的中英文音譯詞 。本文提出一方法 ,自網頁 中抽取出大量的中英文音譯詞組,利用中文語音辨認系統在辨認過程所產生的混淆矩陣 (Confusion Matrix)來克服發音變異(Pronunciation Variation) 。從實驗結果發現本文所提出的方 法可達到32.26%的檢出率(Recall) 及95.23%的準確率(Precision) ,足以證明所用方法確實可有 效的應用於音譯詞組自動抽取 。 1. 簡介 當國際交流日益頻繁 ,各國間的資訊傳遞也更加迅速 ,許多的媒體必須在短時間 所收 到的外國資訊儘可能完善的翻譯成本國文字 ,以滿足讀者的需求 ,在現今媒體開放 、競爭的 台灣這種步調更加快速。這些外國資訊常包含有許多的專有名詞(Proper Noun)如人名、地名 及組織名等夾雜其中,同一名詞出現在不同文章中但由同一人員翻譯可能會出現不同的譯名 ,同一名詞由不同人員翻譯也可能會出現不同的名稱 。這些問題主要是因為所接收的外國資 訊涵蓋非常廣泛 ,發生的地點及所使用的語言更是廣佈於全世界 ,實在是非單一個人可以準 確的音譯出由不同語言所發聲的的專有名詞 。專有名詞的音譯並不在本文的探討範圍 ,但音 譯詞組的自動抽取卻是建 構機器音譯系統不可或缺的一步 。 機器音譯常用來處理人名、地名等,其作法乃是 這些專有名詞經由發音方式自一語言 轉換至另一語言 。它是機器翻譯中重要的一環,因為在許多文章中常有人名、地名及組織名 等專有名詞夾雜其中,雖然經由查閱預先整理之詞典可以解決部分的問題,但是這些專有名 詞數量隨時間不斷的增加及成長 ,而辭典的整理既費時又費力 ,透過音譯詞組自動抽取可動 態補充辭典內容之不足。 想要自動抽取音譯詞組,必須要能自足夠大的語料庫中抽取出多樣且量多的音譯詞組, 一般測試用語料庫大多無法滿足這樣的需求 。網際網路是現今世界上最大的分散式資料庫 , 其所包含的資料雖然缺乏有系統的整理 (Systematically Organized) ,但卻包羅萬象而且源源 不絕不斷有新的內容產生 ,這樣具有動態特性的資料是許多研究不可或缺的素材 。本文的目 的是要自這些網頁資料中抽取出許多可能的中英文音譯詞組,做為未來發展機器音譯的基礎 。 英文是目前國際上最通用的語言之一,許多資訊是透過英文翻譯或音譯至其他語言去 , 有許多的名詞先被引進至英文,其他語言的使用者 ,透過再從英文引進這些名詞 。因此造成 許多語言自英文引進的外來語 ,其原來的字源(Word Origin) [Llitjos2001] 並非來自英文 ,因 此若不了解外來語的字源 ,常會有發音不一致的其行產生。例如義大利地名Firenze 及其英 文音譯Florence [Lin2000] ,究竟 該採用哪一種讀法 ,實在很難決定。即使對常用的英文字 如Mary/meIri/ marry/m ri/ 及merry/mεri/ ,有些人把這三者均唸成不同或某兩者相同 ,但 大多數的美國卻把這三者均唸成/mεri/[Jurafsky2000] 。這表示有發音變異的問題存在。而機 器音譯則用來 人名、地名等專有名詞經由發音方式自一語言轉換至另一語言 ,所以為了克 服不同人的發音變異問題,必須抽出足夠的音譯詞組,進而建構不同語言間的音節轉換關係 。 鄰近的日本與韓國也極力引進及吸

文档评论(0)

l215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档