- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语普通话双音子和三音子结构系统及其代表语料集.doc
汉语普通话双音子和三音子结构系统及其代表语料集
摘要: 在连续语音处理方面, 究竟选择什么样的单元才能够对付复杂的语音变化现象, 这始终是个难题. 经过长期的探索, 人们终于发现, 双音子和三音子是比较理想的、能够较好地覆盖各种语音环境变化现象的处理单元. 所以, 在国外, 它们首先在波形拼接合成方面、然后在语音识别方面得到广泛的应用. 在国内, 虽然也已经开始被识别方面重视, 但总的说来, 人们尚不十分熟悉它们. 本文将扼要地介绍这些概念, 并为普通话的双音子和三音子结构系统设计了一套代表语料, 以提供有关方面研究和应用.
1.0 前言
自然话语并不是各种语音单位诸如音素或音节的简单机械的串列, 而是按照一定的规则结合和变化的有机体系. 在这个体系里, 各个相邻语音单元之间由于协同发音(coarticulation)作用而彼此渗透, 在空间和时间域里形成了相互套叠(telescope or overlap)的局面(Zsiga, 1994; Wood, 1991), 其中相互叠接的部分叫做音联(juncture)(许毅, 1989), 它通常都是对应于一个声学上及其易变的区域. 不同语音单元之间的音联现象既是它们相互连接、又是它们彼此分界的表现. 正是这个部分给自然语音处理带来了极大的困难. 以通常的音位作为处理单元, 显然无法涵盖上述音联现象; 即使采用较大的言语单位如音节或词作为处理单元, 也仍然不能解决音节之间或词与词之间的音联问题. 于是, 言语工程方面便转向某些低于词的(subword)、甚至次音位的(subphoneme) 探索, 终于发现, 半音节或双音子(diphone)和三音子(triphone)大小的单元是能够覆盖言语中的音联现象、便于建立协同发音模型的、比较理想的语音处理单元 (Lee, 1990). 而且, 采用这样的单元不仅能处理语音之间的连接和分界问题, 还能处理各个语音本身的环境变体(allophone).
所谓音子(phone), 是语音之间在声学上连贯的、黏着的部分, 它对应于声学上的音段(Keller, 1995). 它跟音位或音素不同. 音位是区别性的语音, 对应于听觉上的音段. 通常, 声学上的音段多于听觉上的音段. 例如, 汉语的音节“八”听感上是由/b/和/a/两个区别性的音段构成的; 然而, 在声学上, 则除了/b/和/a/以外, 还存在着由于协同发音而产生的非/b/非/a/的音段, 这些在声学上就叫做音子. 它们虽然不是区别性的语音,但却是自然言语中普遍存在的、语音处理上难于回避的语音现象。双音子通常是由一个语音单元的末尾部分跟下一个单元的开头部分构成的,它可以当作相邻语音音段之间的过渡音来用, 在声学上作切分时,应当包括这两个音段的一部分稳定段(Klatt, 1987; Olive Spickenagel, 1976)。三音子是另一种声学音段,它考虑了一个音位或音素左右两方面的语音环境(Lee, 1990), 通常包括这个音素本身以及它跟左右相邻音素之间的过渡音段。作为一种声学音段,双音子和三音子已经在合成和识别系统中得到广泛应用(Bhaskararao, et al. 1991; Levre, 1986), 因为这种音段能够捕获语音的所有瞬间状态及过渡信息, 能够有效地提高合成语音的音质和对连续话语的识别率。所以,在汉语识别方面,人们也已经开始尝试运用这种方法, 而且取得了较好的效果。
2.0 汉语的双音子和三音子结构系统
2.1 汉语的双音子结构
汉语普通话共有400 多个不计声调区别的音节,一般说来,多数音节内部都包含着2-3
个双音子结构。例如,在音节/jin/ 里就包含两个双音子,起首的一个处于/j/和/i/之间,通常写作j-i;收尾的一个处于/i/和/n/之间,通常写作i-n。不过,多数双音子是可以为不同音节共享的。例如, 音节/jin/里的起首双音子就可以跟/jing/里的起首双音子共享。所以,汉语音节内部的双音子结构总数只有100多个。
音节之间的双音子结构就比较复杂一些, 因为每个音节都有可能跟包括它自身在内的另一个音节毗邻。例如, 在“介绍”一词里,音节/jie/与/shao/之间就会产生一个音节间的双音子e-sh;相反,如果“绍”出现在“介”的前面, 它们之间又会产生另一个双音子o-j。同样,音节间的双音子也能为相似的音韵结构共享。根据普通话的语音结构规则,音节间的双音子的总数可以归纳为300多个。
2.2 汉语的三音子结构
三音子涉及一个音素左右两方面的语音环境,例如,在音节/jin/里,音节内三音子就是由/i/音跟它与/j/和/n/之间的两个过渡段构成的,一般写作i(j,n). 在普通话里,一个音
文档评论(0)