人工智能技术导论 课件 04 智能语音技术及应用.pptx

人工智能技术导论 课件 04 智能语音技术及应用.pptx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

智能语音技术及应用第4章

4.1智能语音技术简介智能语音技术是实现人机语言通信的一种技术,包括语音识别和语音合成。语音识别技术是将声音转化成文字的一种技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR)。语音合成(TexttoSpeech,TTS)技术让计算机像人类一样说话,将文本序列转换为语音信号的技术。

4.2.1语音识别技术分类以说话方式为标准,分为孤立词语音识别、连接字语音识别、连续语音识别三类。根据对特定说话人的依赖程度,分为特定说话人语音识别、非 特定说话人语音识别两类。根据模型所使用的词汇量大小,语音识别可分为有限词汇语音识别和无限词汇量语音识别两类。

4.2.2语音识别发展历程第一阶段,起步阶段,以识别孤立词的发音为主要研究内容。第二阶段,快速发展期,语音识别系统的功能从简单的特定人识别发展到非特定人的识别,从小词汇量孤立词识別发展到大词汇量连续词识别,识别准确率显著提升,性能日趋走向成熟。第三阶段,成熟及广泛应用阶段。伴随着大数据时代的到来以及深度学习的快速发展,大词汇语音识别的性能快速发展。IBM的Shoebox系统

4.2.3语音识别系统构成(1)左边自上而下代表语音的生成过程,右边自下而上显示了语音的识别过程。说话人和收听人的沟通要基于共同的词汇语义库和语音发音规则,而语音识别等效为将语义的相关信息从语音信号中“解调”的过程。语音通信流程

4.2.3语音识别系统构成(2)语音系统的层次模型

4.2.3语音识别系统构成(3)语音识别系统框图

4.2.3语音识别预处理技术采样和滤波自然采集的语音信号往往存在多种噪声和干扰信号,会影响识别的结果,所以在语音识别的开始阶段必须进行滤波。分帧和加窗语音信号的研究过程中,往往是建立在“短时”分析的基础上,即把语音信号分成很小的时间段(一般为10~30ms),每一小段称为一帧,把语音信号分成若干帧的过程就称为分帧。梅尔图谱声谱图可以更直观地不同声音事件的能量的时频域分布明显不同,所以可以通过声谱图特征进行语音识别。

4.2.5语音识别方法隐马尔科夫模型BP神经网络BRNN模型

4.3.1语音合成技术分类根据声音产生的不同层次,可以分为:从文本序列转换到语音、从概念转换到语音、从意向转换到语音三类。以数字信号处理的方法不同,可成分为基于规则、基于数据、基于统计、基于深度学习的方法。

4.3.2语音合成发展历程语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。谷歌公司于2017年提出的Tacotron模型

4.3.3语音合成系统构成传统的语音合成系统由文本分析和波形生成两大模块组成,也称为前端模块和后端模块。语音合成系统框图

4.3.4语音合成方法波形拼接的语音合成方法

4.4智能语音编程案例pyttsx3是一个Python文本到语音转换库,它可以将文字转换为语音并播放出来。它支持多种平台和多种合成引擎。pyttsx3库简单易用,是小白的好选择。通过调用此库,很容易就可以让程序”开口说话”。本案例是使用ppttsx3库实现以下功能:播报指定文本,并输出语速和音量;调整语速和语音,完成趣味问答。

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档