读书篇章 双语对应语料库及其研制.doc

读书篇章 双语对应语料库及其研制.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
读书篇章 双语对应语料库及其研制

台語文語料處理技術 讀書篇章 : 雙語對應語料庫及其研製 林晏僖 第一節: 語料庫和雙語語料庫 第一個現代意義上的語料庫『Survey of English Usage』在50年代末於倫敦大學建立,內容包含了當代的(→歷代的)、社會的(→不只是名家)以及通用的(包含口語)英語語篇材料。自此以後由於電腦技術的飛速發展,語料庫的規模更大。如:LOB資料庫、朗文資料庫、BNC等。在1995年,牛津、劍橋、朗文、柯林斯都在語料庫的幫助之下,推出了自家品牌的學習辭典。也由於語料庫的興建,語料庫語言學發展起來,成為進幾十年來的語言研究重點,在80年代迅速發展。目前,英語語料庫的研製佔主導地位,但其他(如日語、法語、德語、漢語)也擴展了基於語料庫的研究。雖然在20年代就開始有單語語料庫的建立(書面),但雙語語料庫則直到90年代才開始發展,此外多語平行對應技術太高、翻譯語言算不上道地母語且有直譯意譯之別,但由於大型語料庫對於語言研究有重大意義,UMIST還是在1995建立起第一個翻譯語料庫TEC。這些語料庫為翻譯和語言對比研究提供了重要資源,並擴展了研究的範圍:(1)可深入了解在單語語料庫中被忽略的語言對比(2)可皆是語言的共通性、或某語種語言及文化的差異(3)研究原文與譯文、母語和非母語的差異(4)可應用在辭典編制、外語教學、翻譯上。 這篇文章中語料庫的類型及定義如下: 1.單語語料庫:是開發和使用最多的語料庫。又可分為single monolingual corpus如BNC、CBECobuild、BROWN corpus 及single translational corpus 其中只收集單語的譯文如TEC。這種語料庫可作為翻譯研究的控制參數 2.平行/對應語料庫(parallel corpora): 單向對應語料庫:例如整個語料庫都是英文譯為漢語的資料。 雙向對應語料庫:既包含A翻譯到B語言的資料,也包含B被翻到A語言的 資料,如ENPC。 多項對應語料庫:一個語言被翻譯到兩種以上的語言構成的對應語料庫。 3.類比語料庫(comparable corpora):由不同語言或同一語言不同變體所構成的兩個或兩個以上的語料庫。 4.翻譯語料庫(translational corpora):彼此具有翻譯關係的不同語言文章構成的語料庫,但不一定具有句級上得對應關係,可能只是篇章上的對應收錄,是他和對應語料庫不同的地方。 類比和對應語料庫主要用於翻譯和語言對比研究,各有特色,使用目的也不相同。對應庫可用於探討『同一句話,如何用兩種語言表達』。但在對比研究中只用對應庫,結果就不可靠,因為譯文有翻譯腔。類比庫是包含不同語言的母語文本,就避免了翻譯腔。但也因為如此,類比庫比對應庫在翻譯研究上少了些優勢。在開發MT和CAT上,類比庫也不如對應庫有用。在翻譯研究中,對應庫的翻譯方向十分重要。例如研究漢語中的某種語法如何翻成英文,就該選擇漢譯英而不是英譯漢的語料庫。另外使用只包含一個一本的語料庫產生的另一個問題是譯文只代表譯者對原文的理解,所以有人認為,一個對應庫中應包含一原文的不同譯文。透過比較,可識別譯文和母語之間的明顯差異,例如,研究指出英文譯文的特徵是簡單化、明顯化、規範化和淨化。儘管譯文和母語之間的差異是語言事實,但用語料庫作語言對比研究卻是目前頗流行的作法。 就翻譯實踐來看,語料庫也為譯者提供一個工作平台及參考工具,在這方面即使是單語語料庫也很有用。例如在專業領域的理解、術語準確選用、習慣表達方面,語料庫輔助的翻譯比只靠辭典的翻譯來的好。跟單語比起來,對應庫對翻譯研究價值更大。在這方面,專門的對應語料庫對特定專業領域更有用。此外,對應庫也因可以將短語翻得更準確道地,而被廣泛推崇。 第二節:國內外雙語對應語料庫研製現狀 第一代現代語料庫以LOB(1961)和BROWN(1961)的建立為標誌,至今已有快50年的歷史。90年代初期建立的語料庫主要局限於,英文和歐洲各語言間,到了中期擴展到其他語言,現在幾乎已經覆蓋世界上的所有主要語言了。現在國際上比較知名的雙語對應語料庫有: Hansard語料庫(Brown et al .):是加拿大議會辯論的英法雙語稿,以研究英法詞彙和句型翻譯。 Johansson等人在挪威奧斯陸大學建立的英語挪威語雙語對應語料庫。 Translational English Corpus(MONA BAKER , UMIST):收集從各國語言翻譯成英文的文本(目標5000萬字,分小說、傳記、報紙、期刊。Http://www.umist.ac.uk/ctis)。 GEPCOLT:The German-English Parallel

文档评论(0)

didala + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档