网站大量收购闲置独家精品文档,联系QQ:2885784924

中文转客文文转音系统中的客语断词处理之研究解析.PDF

中文转客文文转音系统中的客语断词处理之研究解析.PDF

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文转客文文转音系统中的客语断词处理之研究解析

The 2014 Conference on Computational Linguistics and Speech Processing ROCLING 2014, pp. 58-77 © The Association for Computational Linguistics and Chinese Language Processing 中文轉客文文轉音系統中的客語斷詞處理之研究 Research on Hakka Word Segmentation Processes in Chinese‐to‐Hakka Text‐to‐Speech System 1 2 2 3 黃豐隆 、余明興 、林昕緯 、林義証 1 國立聯合大學 資訊工程所,flhuang@nuu.edu.tw 2 國立中興大學 資訊科學與工程所,msyu@dragon.nchu.edu.tw; lin@sinwei.tw 3 建國科技大學 資訊管理學系,yclin@ctu.edu.tw 摘要 語言(Language)是文化傳承與推廣的首要工具,尤其是少數族群的語言,如:台灣的客語 或原住民語言。臺灣的客家族群約佔總人口七分之一,為閩南語語系外之第二大族群。根據近 年來相關臺灣客語使用狀況調查報告指出,阻礙客語傳承之主因是:不太會講。由於台灣學習 環境使然,導致連客籍家庭的學童亦少能以客語說話、交談,具有聽、說客語能力者逐年下 降, 能說客語的人口大量減少,台灣出現客語失聲、客家文化失傳之危機。 我們為了建置線上客語的數位學習系統,已開發出以大量合成單元為基礎的客語四縣腔及 海陸腔的中文轉客文的文轉音系統(Hakka Text‐to‐Speech, HTTS) ,以及相關的應用系統,如:線 上國客雙語有聲詞典 [13] 、國客雙語有聲地圖社群系統[14]…等。 我們的系統,主要是提供不太會講客語或不會講客語的使用者來使用、學習客語。因此系 統的輸入為「中文文句」,輸出為「客語語音」。這樣的操作設計,學習者或使用者能不需額外 再學習客語輸入法、客語拼音,只需使用最熟悉的中文,即可透過本系統來學習客語。 為了更進一步改善與提升文轉音的效果,本論著重在改善系統中的客語文句分析模組的客 語斷詞處理。在系統中,使用者輸入中文文句後,透過我們提出的客語斷詞方法,能將「中文 文句」轉換為「客語文句及斷詞和詞性標記結果」。透過這個提升後的斷詞與詞性標記結果 ,來 得到更佳的文句分析結果、提升文轉音中的文意正確性,如:韻律階層的求取、停頓類型的求 取及讀音的求取。 本論文提出混合型的 N‐Gram 序列分數算法,搭配中文斷詞模組及動態規劃演算法的客語 斷詞方法。在嚴重資料稀疏的客語語料下 ,對中文轉客語斷詞結果的精確率有80.78% 。相較於 傳統中文詞直翻客語詞的方法,已提升不少。 Abstract Language is a major tool for cultural inheritance especially for the minority nationality, for example Hakka and aborigine language in Taiwan. As second ethnic besides Minnan dialect, the population of Hakka in Taiwan is one seventh. According to the recently reports of Hakka usage survey in Taiwan, the difficulties to inherit the culture of Hakka is missed in spoken Hakka language, the reason is the environments for learning and has led to the results of descending population for communicating by

文档评论(0)

yanmei520 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档