纯英文式台文对语音处理及教材编辑的影响.doc

纯英文式台文对语音处理及教材编辑的影响.doc

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
纯英文式台文对语音处理及教材编辑的影响

?純英文式台文對語音處理及教材編輯的影響 莊勝雄 中興大學 機械系 摘要 用26個羅馬字母所建構的純英文式台文,普實台文 (PSDB),可以精密的表達台語的音,調和語意。經過八年來的發展和教學,發現它有人性化,國際化和資訊化的優點。對台灣的教育,文化和資訊科技等各方面的發展都可以促成革命性的進步。 在語音處理方面,可以直接做為合成的輸入資料的表示法,人可以直接輸入。也可以做為辨識結果的表示法,人可以直接讀,不用像中文需要有音標和漢字之間的轉換過程。英語英文的語音處理方法和軟體可以不用改變,或是極少的改變就可以用在台語台文的處理。在教育製作方面,英語英文的工具軟體和方法也是可以直接拿來使用。教材編製的品質和效率可以大大提高。 1. 介紹 目前有很多台語文字化的方案,但是大部分都欠缺系統化,資訊化的長期研究和精緻考慮[Zngf 97c, Ngg SP 98a, Ngg SK 98]。致使台語的分析和發展受到嚴重的限制。因為語言是透過聲音的表現來傳達資訊,文字是用來表示語言意思的書面記載,因此拼音字是最有效率和精密的語文形式。根據台語的特性和現代化資訊環境的考慮,台文需要符合以下的要求:1. 使用拼音字,而且在音節之內要表現出母音,子音和聲調的訊息;2. 要用多音節語詞做書寫的最小單位;3. 文字符號要是剛好完整的羅馬字母集合,就是純英文式的文字形式[Zngf 95, Zngf Ngg 97, Zngf 00]。 1.1. 音節的結構和數目 西方很早以前就可以對他們的發聲做很精確的語章結構分析[Fromkin 93, Miller 96]。我們可以用同樣的方法來分析台語的音節。 台語的一個音節是由聲母和韻母所組成。看圖1a,聲母有含鼻音的前子音和不含鼻音的前子音。韻母的部分可分割成母音、聲調及後音。後音是促音或是後鼻音。一個音節除了一定有母音之外,其它的部分都可以沒有。看圖1b,gveq(夾) 是子音g,鼻音v,母音e和後音q所組成。看圖1c, pafn (班) 是由子音p,母音 a,聲調 f和後音 n,所組成。 (a) 音節的階層結構 (b) gveq的階層結構 (c) pafn的階層結構 圖1. 音節的組成 台語的一個音節是聲母加韻母(基調)加聲調所組成,理論上可區別音節種類總數的計算是用28個聲母,33個韻母和7個聲調三個數目相乘的結果,就是28 ×33 ×7=6468。聲母本用普實台文表示法來區別有32個,因為(c, ch, cv, chv) 和 (z, zh, zv, zhv)去和韻母匹配時分別互相形成互補關係,所以這8個只能算4個而已。因此在算聲母總數時,是用28個來算的。但是6468種的音節和實際上的數目是有誤差的。主要是促音雖然有2種聲調,但是它們各有4種的發音方式,因此促音的總數會去少算到。有後鼻音的韻母就沒有再有促音的。而且某些調的韻母不會用到。 所以實際上去計算有在使用的韻母數目是198個,就是母音結合聲調和後音的實際總數(參考附錄A)。聲母的數目28個乘上韻母的數目成為28 ×198=5544,是台語可以發聲區別的音節數目。只是聲母28個並不是每個都和每個韻母配對的。所以最精密的台語音節總數應該是從辭典的資料庫來統計。要用辭典而不是字典是因為台語有轉調的特性。根據佘等人的統計,2557是一個相當接近真實數目的數字,是5544可發聲區別音節數的子集合[Siaa 1999b]。 1.2. 台文純英文化的理由 台文純英文化是說台文在形式上和英文一樣用26個羅馬字母來連接組成,沒有其他一般英文單字所沒有使用的符號,如聲調符號及數字等。漢語長期受漢字圖示表示方式的影響,字的結構停留在圖示音節符號的層次,沒辦法對語音做深一層的研究和利用。新造字和對語音的分析遭受到嚴重的限制[Zngf 97, Ngg SP 98a]。台文形式上純英文化即可以解決這個問題。 講話的語詞和書寫的字詞沒有做直接的關連是漢字表示法的致命傷。當拼音字系統在講Word (字詞)的時候,是在講那個語詞,書面表示只是在反應那個語音的意思。漢字的字和語詞就有不一樣的函意。希臘在2800年前就完成拼音字書寫方式的建立。羅馬人再將之修訂成拉丁字,很快就傳播到整個西方世界[Miller 96],現在連越南、馬來西亞、印尼也是用羅馬字來表示他們的語言。 很自然的現象,人一開始想要記載語言的時候是用語詞為單位的圖示[Miller 96]。慢慢的從圖示-音節發展成音節的書寫。音節的書寫最後才被拼音字所取代。用圖示來記載語言的探試被證明是沒有效率的方式,在很多地方最後都採用代表聲音的方法來取代。歷史上拼音字的進展是愈來愈接近表示語言的聲音。每一次的進步顯示著語言分析的改進。這可以說是指數原則的勝利。為了要有足夠的字型,書寫者和講話者在產生語詞一

文档评论(0)

sb9185sb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档