- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向情感的语音合成系统陶建华许晓颖中国科学院自动化研究所模式识别国家重点实验室北京北京师范大学文学院北京摘要情感语音合成是近几年语音合成的研究热点现有的研究多以语音的韵律和声学特征为指导因素在情感语音合成的研究中必须解决如下三个核心问题如何确定情感状态和情感语音的声学特征参数如何建立情感状态与语音的声学特征的关联关系建立情感声学参数的综合控制模型如何结合文本分析和场景因素建立情感的预测机制本文将围绕着这三个问题进行深入的探讨在实验分析的基础上对情感语音合成中需要处理的情感特征以及情感特征与语音特
面向情感的语音合成系统
(1) (1)(2)
陶建华 许晓颖
(1) 中国科学院自动化研究所模式识别国家重点实验室 北京 100080
(2) 北京师范大学文学院 北京 100068
摘 要
情感语音合成是近几年语音合成的研究热点,现有的研究多以语音的韵律和声学特征为
指导因素。在情感语音合成的研究中,必须解决如下三个核心问题:(1)如何确定情感状态
和情感语音的声学特征参数?(2)如何建立情感状态与语音的声学特征的关联关系,建立情
感声学参数的综合控制模型?(3)如何结合文本分析和场景因素建立情感的预测机制?本文
将围绕着这三个问题进行深入的探讨,在实验分析的基础上,对情感语音合成中需要处理的
情感特征,以及情感特征与语音特征的相互关系问题进行分析,并针对这些关联关系提出了
情感声学模型和情感韵律建模的思路,初步实现了一个情感语音合成系统的原型。
关键字 情感语音合成、情感分析、影响情感因素、情感焦点、情感关键词
1 引 言
语音是人类交际的最重要的工具之一。人类的说话中不仅包含了文字符号信息,而且还
包含了人们的感情和情绪的变化。例如,同样一句话,往往由于说话人的情感不同,其意思
和给听者的印象就会不同,所谓“听话听音”就是这个道理。而传统的语音处理系统多着眼
于语音词汇传达的准确性,而忽略了包含在语音信号中的情感因素。情感特征的人工处理,
在信号处理和人工智能等领域具有重要意义。近几年来,在自然语言处理、信号处理、随机
过程处理等方法的推动下,语音合成技术获得了很大的发展,突破了传统的单纯语音计算算
法的研究。情感语音合成的研究,适应了语音技术的未来发展趋势,由于它能够很好的将语音
的口语分析、情感分析与计算机技术有机的融合,为实现以人为本,具有个性化特征的语音
合成系统,奠定基础。
有关情感的论述可以从 19 世纪末的 William James[1]追述到二十世纪末的 James Russell
[2]。从语音信号中提取情感特征,分析人的感性与语音信号的关联,将情感特征应用于语音
合成方面的研究,只是国外近几年刚刚兴起的研究课题,大量的模型还没有得到很好的解决。
人的情感被分为基本类和扩展类两种(Rene Descarte [4] ),基本类对情感的描述起到重要的
作用,通常情况下,情感语音的研究主要集中在情感基本类与语音声学参数的关联分析上,
目前,针对情感基本类的常见的定义有:害怕、发怒、高兴、悲伤、惊奇和厌恶等六种,尽
管如此,针对不同的场合,其分类标准依然会有所区别。通常的扩展,包括区别发怒的特征,
增加蔑视、懊恼、厌倦、担心、傲慢和爱慕等,这些可以由性别特征以及其它特征区别开。
每一种语言均包含着一些特殊的情感用语,Whissell [9]收集了 107 种反映情感状态的词,
Plutchik[10] 则列出了 142 种,这些词覆盖了很大范围的情感状态,只有很少一部分可以被归
纳到基本类。一些科学家通过分析,将人的表达方式从“憎恶”一直细分类到“狂怒”[11] 。而这
一分类则与具体的语言和文化密切相关。通常意义下,人们对情感的理解,主要集中在情绪
的变化上,然而将情感进行细致扩展,则衍生到自然口语的表现方式,它相对于普通朗读风
格,更贴近人的生活和接近人自然的情感流露和表达方式。
情感发音的实现,需要通过语音的声学参数体现人的情感特性, Sylvie J.L. Mozziconacci
在 IPO (’t Hart et al., 1990)语调方法的基础上初步加入了情感控制参数,增加了语音合成的表
现力。Cohn[1]针对情感的声学特性编写了简单的情感编辑器,使研究人员可以细致的观测情
感控制参数对语音输出的影响,对情感语音合成的研究起到了较好的推动作用。已有的研究
多局限在零散和片面的领域,为建立较为完整的情感语音合成系统,涉及到情感语料库设计,
情感韵律特征分析及情感建模,语法、语义对情感发音的影响,面向口语的韵律分析及建模,
情感语音声学模型的建立,场景分布对情感发音的影响,以及韵律个性化等一系列的研究。
本文将
文档评论(0)