- 1、本文档共93页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音技术前沿及应用
语音及语言研究、技术及应用 讯飞研究院 范围与面向 本课程包括: 什么是语音、语言,有什么特性(80分钟) 智能语音及语言技术包括哪些,讯飞优势(120分钟) 本课程面向: 以前没有或者较少接触语音及语言技术的 所有公司员工 什么是语音、语言,有什么特性 语音 讯飞语音 沟通无限 语音:人类发音器官发出的声音 语音产生于几百万年前 但人类能听到的历史不过128年,(1877年:爱迪生发明留声机) 无声电影=有声电影 计算机、声卡=语音的计算机处理技术 人类每天说的话如果存下来,… 两个不同频率的“嘟” 语音产生机理 元音发音器官形状 汉语辅音音素 语音信号中的一些基本概念 语音的特性1:波形不说明内容 语音的特性2:共振峰基本决定内容 语音的特性3:基频决定声调 语音的特性4:声音一样又不同 语音的特性4:汉语方言一级元音格局 人类听觉系统 计算机眼中的语音 就是一系列的物理参数 隐马尔科夫(HMM)语音建模 10秒钟的数据 10*16K*16bit的数据,且几乎没有任何规律 1000帧,每帧可以计算39个浮点数,3.9万个浮点数,也没什么规律 40个音节,80个声韵母 320个HMM状态,每个状态20个Gauss函数,每个高斯2参数 每个声韵母分别包含哪些帧,几近无穷可能 数据多!所能看到的数据和声韵母联系起来困难 语言 语音语言不分家 语言:人类特有的能力 有2500至3500种语言 汉语属汉藏语系,英语属印欧语系日耳曼语族 语言层级: 音素、声韵母、音节、字、词、短语、句子、篇章 以有限的音节和字按规定的文法构建出无限的句子 语言理解: 词法、语法、语义、语用 计算机眼中的语言 数据少意思多!寥寥数字,无穷意境 智能语音及语言技术包括哪些讯飞优势 智能语音及语言技术 语音 合成、识别、编码、转换、身份识别及确认、音色分类、评测、哼唱检索、音乐检索、语音检索、Singing TTS、降噪、音效 语言 基础研究:词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析 应用研究:拼音输入法、自动摘要、对话系统、文本分类、文本匹配、机器翻译、信息检索、信息抽取 语音合成技术(Speech Synthesis) 即Text To Speech的过程,简称TTS技术 中文信息处理领域中的一项前沿技术 涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术 主要解决的问题是将文本状态的文字信息转化为可听的声音信息 语音合成的历史 电子计算机发明以后,语音合成技术得到了飞速的发展,方法也发生了根本性的变化 语音合成技术 语音合成技术 语言合成技术之一 Articulatory Synthesis 根据人类发音机理方式工作的合成方法 模型主要组成部分 声门波发生装置 声带 气管-口腔声道腔体模型 嘴唇的辐射模型 主要优缺点 真实的反映了人类发音的整个过程 人类发音过程的模型不够精确,无法得到清晰度高的语音 语音合成技术 语言合成技术之二 Source-filter Synthesis 基于语语音数据信号处理的合成方法 模型主要组成部分 声门波激励源 描述声道模型的滤波器 主要优缺点 合成语音的音质比上一种方法有很大的提高,但是仍然不是很好 可以对合成语音在音色和声调上进行较为灵活的调整 语音合成技术 语言合成技术之三 Concatenative Synthesis 利用原始语音片断作为合成单元 关键技术 原始语音片断的获取方法 原始语音片断的挑选方法和拼接算法 主要优缺点 合成语音的音质比上两种方法有质的提高,因为不需要进行大的调整 语料库的录制和制作工作量巨大,同时合成语音的灵活性较低 语音合成技术 语音合成技术 语言合成技术之四 Trainable TTS 利用HMM模型直接对语谱和韵律进行建模 关键技术 HMM模型对特定人的语音进行建模 良好的合成器对预测出来的语谱和韵律参数进行合成 主要优缺点 合成语句自然流畅,普适性好 能够容易的模拟各种不同的说话人,不同情感,不同语气 因为采用合成器进行语音的合成,清晰度难以提高 语音合成技术 语言合成技术之五 多模态语音合成 将语音合成与嘴唇,脸部运动结合起来 关键技术 对语音内容和嘴唇运动以及脸部运动进行同步 利用三维模型或者是图像录像进行脸部图像的生成 主要适用场合 可视聊天等各种沟通方式中(例如于msn,QQ等结合) 电子游戏,娱乐服务中 智能计算机的人机界面 休息五分钟 语音合成 分类: 语种:普通话、粤语、英语、日语 嵌入式识别、桌面应用、服务器级应用 难点: 语音的多变性 信息从少到多,文本分析 方法: 波音拼接:单样本-多样
文档评论(0)