语音情感识别+眼动仪实验.pptVIP

下载本文档

10
0
约5.52千字
约 16页
2019-11-04 发布于浙江
举报
版权申诉

语音情感识别+眼动仪实验.ppt

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

10月12日在广州举行的2017小蛮腰科技大会上，人工智能（AI）成为最热的议题。美国高通集团全球副总裁、投资部中国区总经理沈劲表示，人工智能下一步的投资机会在垂直领域。科大讯飞高级副总裁杜兰说，人工智能领域未来有两大产业发展机遇，一是三五年内，以语音为主、键盘触摸为辅的人机交互时代即将到来；二是五到十年内，人工智能将像水和电一样进入每一个行业，深刻改变世界。语音识别，这个是开复先生多年前的一个小小贡献。其实，我听懂讲的每个字不代表听懂了意思，甚至把英文翻译成中文，中文翻译成英文还是没有搞懂。你们不要看科大迅飞的演讲说懂得语音了，他一点不懂，他只能把音变成字，字变成音。你问他讲什么，一个字不懂。所以，语音识别还是要做的更好。语音识别是所有技术里面最不成熟的。当我看到一个一个的计划非常担忧，99%很多会死掉。自然语言理解没有完全被克服，自然语言理解到平台化使用还有十万八千里，所以你们如果投了这个项目，好好考虑一下。 2017-03-03 人工智能其实已经无所不在，打开你的手机，每个APP里面都是人工智能。人工智能经历了运算智能、感知智能、认知智能三个发展阶段。阿法狗打败围棋冠军等事例说明，机器的运算智能已经超越人类；能听会说、能看会认的感知智能，机器也部分超越人类，像把语音翻译成文字方面，讯飞输入法的准确率已达98%。但在认知智能方面，机器跟人还有很大差距，也是人工智能努力的方向。语音情感识别 2013-11-01 语音情感识别研究进展综述[EI检索] ① ② ③ ④ 1. 情感描述方式大致可分为离散和维度两种形式前者将情感描述为离散的、形容词标签的形式，如高兴、愤怒等。后者则将情感状态描述为多维情感空间中的点。返回 2. 依据情感描述模型的不同，将数据语料资源划分为离散情感数据库和维度情感数据库两个分支，二者的区别在于情感标注形式的不同,前者以离散的语言标签(如高兴、悲伤等)作为情感标注，而后者则以连续的实数坐标值表示情感。返回 CASIA 汉语情感语料库：该数据库由中国科学院自动化研究所录制,由4位录音人(2 男 2 女)在纯净录音环境下(信噪比约为 35db)分别在 5 类不同情感下(高兴、悲哀、生气、惊吓、中性)对500 句文本进行的演绎得到,16kHz 采样,16bit 量化.经过听辨筛选,最终保留其中 9 600 句. ACCorpus 系列汉语情感数据库：该系列情感数据库由清华大学和中国科学院心理研究所合作录制,包含 5 个相关子库: 1)ACCorpus_MM 多模态、多通道的情感数据库;2)ACCorpus_SR 情感语音识别数据库;3) ACCorpus_SA 汉语普通话情感分析数据库;4) ACCorpus_FV 人脸表情视频数据库;5) ACCorpus_FI 人脸表情图像数据库. 其中,ACCorpus_SR 子库共由 50 位录音人(25 男 25 女)对 5 类情感(中性、高兴、生气、恐惧和悲伤)演绎得到,16kHz 采样,16bit 量化.每个发音者的数据均包含语音情感段落和语音情感命令两种类型. VAM 数据库：通过对一个德语电视谈话节目“Vera am Mittag”的现场录制得到,语音和视频被同时保存,因此,数据库包含语料库、视频库、表情库这 3 个部分.谈话内容均为无脚本限制、无情绪引导的纯自然交流.以 VAM-audio 库为例,该子库包含来自 47 位节目嘉宾的录音数据 947 句,wav 格式,16kHz 采样,16bit 量化.所有数据以句子为单位进行保存(1018 句),标注在 Valence,Activation 和Dominance 这 3 个情感维度上进行,标注值处于−1~1 之间.标注工作由多个标注者共同完成,最终的情感值是相关标注者的平均值. 现已公布的情感语料数据堪称稀少。对离散情感语音数据库而言,如何同时满足语料的自然度和情感的纯净度是其面临的最大挑战。对维度情感语音数据库的建立而言，困难不在于语料的获取，而在于语料的整理和情感的标注。为了将语料中的情感量化为精确的实数值，标注者担负了繁重的听辨和打分工作，并且标注结果的好坏、正误也难以评判。面对语料资源的上述现状，应该如何对现有资源进行补充和丰富？能否通过技术手段对训练语料的选择进行系统的指引和帮助？都是研究者们亟待解决的实际问题。 3. 当前，用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这 3 种类型. 返回（1）韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。它的存在与否并不影响我们对字、词、句的听辨,却决定着一句话是否听起来自然顺