- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
NCMMSC2007
汉语普通话声调的精细建模*
1 2 2 1
呼月宁 ,初敏 ,黄超 ,张艳宁
(1. 西北工业大学计算机学院,西安,710072;2. 微软亚洲研究院,北京,100080)
文 摘:为了更好地研究普通话声调在连续语音中的变化规律,本文对普通话声调进行精细建模,即建立上下文相
关的声调模型(Context Dependent Tone Model,CDTM) 。该模型兼顾了当前音节的声韵母、前后音节的声调、后音
节的声母以及当前音节在韵律词和短语中的相对位置等因素对各个声调的影响。实验结果表明,CDTM 与传统的
三音子模型(tri-phone model)在声调识别上的效果基本一致,但CDTM 使得声调混淆的分布向更合理的方向改变。
CDTM 的优势在于它有效地反应声调在不同语境下的变化形式,为声调分析、语音合成、韵律边界检测等研究工作
提供了一种新的研究手段。
关键词:声调识别;声调建模;声调分析;上下文相关;韵律边界检测
中图分类号: TN912.34
声调在汉语辨意中起着非常重要的作用,因此 测试方法;关于模型的特征选择及其在普通话声调
精确的声调建模也是汉语语音合成、语音识别和语 识别的实验结果及相关分析是第3 节的核心;第4
音分析的关键。虽然,普通话四个声调的典型调值 节给出CDTM 的其它应用,最后第5 节对全文进行
可以用 55、35、214 和 51 来描述,四个声调的调 总结。
型在连续语流中的形态却是随上下文的变化而变
1 基于上下文的声调模型CDTM
化的。在语音识别中,传统的三音子模型(tri-phone
model)主要考虑到前后音子对当前音子和声调(对 1.1 影响声调的因素
于韵母的模型而言) 的影响。在此基础上,有很多以
提高声调识别率为目标的改进工作。在文献[1]中,
作者提出了 supra-tone 模型并用于语音识别,它将
相邻的两个音节看作一个整体,建立di-tone 模型,
然后在用三音子模型识别生成网格(lattice) 的基础
上,对声调进行重新打分(rescore) ,选出得分最高
的路径作为识别结果输出。这种方法在普通话的声
调识别中,有效地将错误率降低了12%。
在di-tone 模型中,只考虑了前一音节对当前音
节声调的影响。实际上,还有很多其它因素会影响
图1 例句的声调分析
声调的形态。例如,前、后音节的声调,音节在词
和短语中的位置,音节是否重读,重读的程度等。 注:本图纵轴表示基频,横轴表示句子。每个字所对应的基频曲线用虚
为了更准确地刻画声调在连续语流中的变化 线隔开。
形式,本文借鉴了基于HMM 的语音合成的训练模 图1 所示为一句话的音高曲线。其中“也ye3 ”
式[2] ,在声调建模中引入了更多的上下文因素,并 为第二个短语的首字,而“瓦wa3 ”为尾字。可以
将该模型用于普通话声调识别、声调相关的语音分 明显看出,同为三声,当出现在句中不同位置时,
析和韵律边界检测等方面。 二者的调型表现出很大的差异。前三个字“不是块,
本文内容安排如下:第1 节主要介绍上下文相 bu2 shi4 kuai4 ”,第一个四声跟在二声之后,二声的
关的声调模型(Context Dependent Tone Model, 终止状态很高,故跟在二声后面的四声起点很高。
CDTM)的定义;第2 节重点描述 CDTM 的训练及 而第二个四声跟在四声之后,由于四声的终止状态
*本文工作是第一作者在微软亚洲研究院实习期间完成
作者简介:呼月宁(1984-12),女(汉族),陕西,西北工业大学硕士研究生。
通讯联系人:初敏研究
文档评论(0)