语音信号处理文献翻译.doc

下载文档 降价啦

4
0
约3.96千字
约 9页
2017-06-03 发布于湖北
举报
版权申诉
保障服务

语音信号处理文献翻译.doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

利用扬声器元音的特征进行情感语音合成卡努仆?太郎浅田?川端康成?吉富正义田卧勇太摘要：近来，情感语音合成方法已经在语音合成领域的研究中受到相当的重视。我们先前提出了一种基于案例的方法，通过利用最大振幅和元音的发声时间，和情感语音的基频特性产生情绪合成语音。在本研究中，我们提出了一种方法，其中，我们报告的方法是通过控制情绪合成语音的基频进一步提高。作为一个初步调查，我们采用一个语义是中性的日本名字的话语。使用该方法，从一个男性受试者带有情绪的讲话做出的情感合成语音，其平均可辨别度达到了83.9％，18名受试者听取了情感合成话语“生气”、“快乐”、“中性”、“悲伤”或者“惊讶”时的发声是日本人“Taro”，或“Hiroko”。在提出的方法中对基频的进一步调整使情感合成语音项目更清楚。关键词：情感语音特征参数合成语音情感合成语音元音中图分类号：ó ISAROB 2013 介绍近来，情感语音合成方法已经在语音合成领域的研究中受到相当的重视。为了产生情感合成语音，有必要控制该话语的韵律特征。自然语言主要由元音和辅音组成。日语有五个元音字母。元音比辅音留给听者的印象更深，主要是因为元音的发音时间比辅音更长，幅度比辅音更大。我们之前提出了一种基于实例的方法来产生情感合成语音，就是利用了元音的最大幅度和发音时间，这两个元素可以通过语音识别系统和情感语音的基频得到。在本研究中，我们提出了一种方法，其中，我们报告的方法是通过控制情绪合成语音的基频进一步提高。我们的研究在报告研究中的优势是在情感语音中利用了元音的特征来产生情感合成语音。提出的方法在第一阶段中，我们得到的情感语音的音频数据为WAV文件，受试者讲话时用了特意的情绪“愤怒”、“快乐”、“中性”、“难过”和“感到吃惊”。那么，对于每一种情绪讲话，我们测量每个元音发声的时间和波形的最大幅值，和情感语音的基频。在第二阶段中，我们把受试者的话语音素按序列进行综合。这个阶段包括的以下五个步骤：第1步对于一个元音前面出现一个辅音的情况，用中性情感进行语音分析的话，元音和辅音的总发声时间被转换成受试者中性情感语音的发声时间。总前元音的发声持续时间和辅音是变换到时的语音与中性情感由人受试者。通过这个过程获得的合成语音在下文中被叫做“中性合成语音”。第2步对于一个元音前面出现一个辅音的情况，用以下情感“愤怒”、“快乐”、“难过”和“惊讶”进行语音合成的话，元音和辅音总发声持续时间被设定为一个值，这个值在中性合成语音中的比例等于元音发声持续时间在情感语音发声时间中的比例，等于在中性语音中元音的持续时间。第3步合成语音的基频，由第2步获得，首先被基于情感语音的基频调整。第4步由第三步获得的合成语音中如果辅音出现在元音之前，该幅度通过两次乘以比例被变换成最终值，其中，和分别表示情感语音和中性语音中元音的最大振幅。由步骤1-4获得的合成语音在下文中被称为“情感合成语音”。第5步由第4步处理获得的情感合成语音的基频，被基于情感语音的基频进一步调整。如果没有出现辅音，在步骤1-5中描述的过程仅适用于元音。在本研究中，该在步骤5中描述的处理被添加到[9]中报道的方法。方法[10]使用重采样时对于第5步。实验 3.1状况我们使用了一个名为朱利[11]的语音识别系统保存语音开始的定时位置，和元音。一个男性受试者(A)在他50多岁时用每一种特意的情绪说出了语义上是中性的日本姓“Taro”和“Hiroko”其中的情绪包括“生气”、“高兴”、“中性”、“伤心”和“吃惊”。他的音频数据被记录为WAV文件。当发元音的时候，我们测量元音的发音时间和波形振幅的最大绝对值。表1和2分别显示出受试者用每一种情感发出每个元音的发声时间和最大振幅。我们进行了主成分分析（PCA），来揭示情感语音中“愤怒”、“幸福”、“中性”、“难过”和“惊讶”的韵律特征，通过使用归一化的发声时间和第一个和最后元音的归一化最大振幅作为特征参数[9]。这里，发声时间和最大振幅的归一化通过设定五个情绪的进行时间和最大振幅的平均值为零，并为每一个情绪设置标准偏差。根据我们报道研究中的主成分分析[9]，“Taro”被选中是因为“愤怒”、“快乐”、“中性”、“难过”和“惊讶”的特征向量在每对情绪中间有很大的距离。另一方面，“Hiroko”被选中的原因是它的“愤怒”、“快乐”、“中性”、“难过”和“惊讶”的特征向量在每对情绪中间没有很大的距离。图1所示为对“Taro”和“Hiroko”的五种情感语音进行主要成分分析获得的第一个和第二个元素所表达的特征向量空间。于是，日本姓“Taro”和“Hiroko”的五种情感“愤怒”、“快乐”、“中性”、“难过”和“惊讶”的情感语音的基频被测量了。之所以选择基频，是因为它是语音中众所周知的