- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
10月12日
在广州举行的2017小蛮腰科技大会上,人工智能(AI)成为最热的议题。
美国高通集团全球副总裁、投资部中国区总经理沈劲表示,人工智能下一步的投资机会在垂直领域。
科大讯飞高级副总裁杜兰说,人工智能领域未来有两大产业发展机遇,一是三五年内,以语音为主、键盘触摸为辅的人机交互时代即将到来;二是五到十年内,人工智能将像水和电一样进入每一个行业,深刻改变世界。
语音识别,这个是开复先生多年前的一个小小贡献。其实,我听懂讲的每个字不代表听懂了意思,甚至把英文翻译成中文,中文翻译成英文还是没有搞懂。你们不要看科大迅飞的演讲说懂得语音了,他一点不懂,他只能把音变成字,字变成音。你问他讲什么,一个字不懂。所以,语音识别还是要做的更好。语音识别是所有技术里面最不成熟的。当我看到一个一个的计划非常担忧,99%很多会死掉。自然语言理解没有完全被克服,自然语言理解到平台化使用还有十万八千里,所以你们如果投了这个项目,好好考虑一下。
2017-03-03
人工智能其实已经无所不在,打开你的手机,每个APP里面都是人工智能。
人工智能经历了运算智能、感知智能、认知智能三个发展阶段。阿法狗打败围棋冠军等事例说明,机器的运算智能已经超越人类;能听会说、能看会认的感知智能,机器也部分超越人类,像把语音翻译成文字方面,讯飞输入法的准确率已达98%。但在认知智能方面,机器跟人还有很大差距,也是人工智能努力的方向。
语音情感识别
2013-11-01 语音情感识别研究进展综述[EI检索]
①
②
③
④
1. 情感描述方式大致可分为离散和维度两种形式
前者将情感描述为离散的、形容词标签的形式,如高兴、愤怒等。
后者则将情感状态描述为多维情感空间中的点。
返回
2. 依据情感描述模型的不同,将数据语料资源划分为离散情感数据库和维度情感数据库两个分支,二者的区别在于情感标注形式的不同,前者以离散的语言标签(如高兴、悲伤等)作为情感标注,而后者则以连续的实数坐标值表示情感。
返回
CASIA 汉语情感语料库:
该数据库由中国科学院自动化研究所录制,由4位录音人(2 男 2 女)在纯净录音环境下(信噪比约为 35db)分别在 5 类不同情感下(高兴、悲哀、生气、惊吓、中性)对500 句文本进行的演绎得到,16kHz 采样,16bit 量化.经过听辨筛选,最终保留其中 9 600 句.
ACCorpus 系列汉语情感数据库:
该系列情感数据库由清华大学和中国科学院心理研究所合作录制,包含 5 个相关子库:
1)ACCorpus_MM 多模态、多通道的情感数据库;2)ACCorpus_SR 情感语音识别数据库;3) ACCorpus_SA 汉语普通话情感分析数据库;4) ACCorpus_FV 人脸表情视频数据库;5) ACCorpus_FI 人脸表情图像数据库.
其中,ACCorpus_SR 子库共由 50 位录音人(25 男 25 女)对 5 类情感(中性、高兴、生气、恐惧和悲伤)演绎得到,16kHz 采样,16bit 量化.每个发音者的数据均包含语音情感段落和语音情感命令两种类型.
VAM 数据库:
通过对一个德语电视谈话节目“Vera am Mittag”的现场录制得到,语音和视频被同时保存,因此,数据库包含语料库、视频库、表情库这 3 个部分.谈话内容均为无脚本限制、无情绪引导的纯自然交流.以 VAM-audio 库为例,该子库包含来自 47 位节目嘉宾的录音数据 947 句,wav 格式,16kHz 采样,16bit 量化.所有数据以句子为单位进行保存(1018 句),标注在 Valence,Activation 和Dominance 这 3 个情感维度上进行,标注值处于−1~1 之间.标注工作由多个标注者共同完成,最终的情感值是相关标注者的平均值.
现已公布的情感语料数据堪称稀少。
对离散情感语音数据库而言,如何同时满足语料的自然度和情感的纯净度是其面临的最大挑战。
对维度情感语音数据库的建立而言,困难不在于语料的获取,而在于语料的整理和情感的标注。为了将语料中的情感量化为精确的实数值,标注者担负了繁重的听辨和打分工作,并且标注结果的好坏、正误也难以评判。
面对语料资源的上述现状,应该如何对现有资源进行补充和丰富?能否通过技术手段对训练语料的选择进行系统的指引和帮助?都是研究者们亟待解决的实际问题。
3. 当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这 3 种类型.
返回
(1)韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。它的存在与否并不影响我们对字、词、句的听辨,却决定着一句话是否听起来自然顺
文档评论(0)