7_语音识别技术及应用_课件_1002_电子系_王侠摘要.ppt

下载文档 降价啦

3
0
约 77页
2016-04-23 发布于湖北
举报
版权申诉
保障服务

7_语音识别技术及应用_课件_1002_电子系_王侠摘要.ppt

1、本文档共77页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音识别基础知识清华大学电子工程系语音信号处理实验室王侠语音识别基础知识什么是语音识别？语音识别基础知识语音识别就是计算机对语音进行识别和理解的过程。是将语音转换成文本或命令的高技术。语音识别有两层含义：第一种是将口语逐字逐句转成相应的书面文字。第二种是对口语的含义作出互动的响应。语音识别基础知识语音识别流程基本框图语音识别基础知识听写机演示系统：语音文字这是由国家863高科技术项目“人机交互技术平台” 课题产生的科研成果－－听写机系统。系统声学模型的训练数据基于标准普通话。系统语言模型的训练是基于10年的人民日报。语音识别基础知识一、语音学的基本知识二、语音信号数字处理的基本概念三、语音识别的研究目标和内容四、语音识别的主要应用领域一、语音学的基本知识 1.发音过程：是由于声带振动发出的声能。一、语音学的基本知识 3.清音和浊音清音：发音时声带不颤动的是清音。浊音：发音时声带颤动的是浊音; 拼音中声母共21个有4个浊音：m，n，l，r。其余的声母都是清音。韵母有39个，都是浊音。一、语音学的基本知识一、语音学的基本知识 4.音素：是最小的语音单位。 * 按生理性质定义，一个发音动作形成一个音素。 * 按声学性质定义，音素是从音质角度划分出来的最小语音单位。如ma包含m、a 两个发音动作，是两个音素。每种语言都有其特定的音素集合，一般在30－50个之间。英语按音标分有48个音素。一、语音学的基本知识 5.辅音和元音: 音素一般分为元音和辅音两大类。辅音：气流在口腔或咽头受阻碍而形成的音叫辅音，如 b 、 p、 m 、 f等。元音：气流振动声带，在口腔、咽头不受阻碍而形成的音叫元音，如 α、 o 、 e 、 i 、 u 等。 6.声母和韵母：汉语语音分为声母和韵母。声母对应于辅音。韵母对应于元音。一、语音学的基本知识 7.音节：是由声母（辅音）+韵母（元音）构成汉语是单音节语言，一个字就是一个音节。按汉语拼音方案，汉语的发音包含： 21个声母（辅音）＋ 39个韵母（元音）无论从能量上看还是从时间上看，元音在一个音节中都是占主要部分。一、语音学的基本知识 8.语音四要素：音高、音强、音长、音质。任何一种声音都具有这四个方面的物理属性。其中，音高决定于频率，频率同音高成正比。音强决定于振幅。音长决定于发音体振动的时间，音质决定于音波的形式。音质是声音四要素中最重要的。发音体不同，发音方法不同，以及共鸣器的形状不同，音质就不同。一、语音学的基本知识 9. 语音的属性： * 语音的生理属性：由发音器官协同动作而产生。 * 语音的心理属性：发声时，先经过大脑神经中枢指挥协同，这是个复杂的心理过程。实验证明，人的主观听觉和语音的客观声学效果之间并不总是一对一的关系。 * 语音的社会属性：语音是一种社会现象，它和语言的意义紧密联系在一起。这种联系是由社会约定俗成的。它体现民族性和地域性。二、语音信号数字处理的基本概念 10. 语音信号数字处理的基本理论和研究围绕两个方面展开: * 从语音的产生和语音的感知角度进行研究。 * 将语音作为一种数字信号进行分析处理。二、语音信号数字处理的基本概念 11.语音信号的表示方式其一，用信息来表示，即参数表示。用数字表示每个音素在时域和频域上变化的信息。其二，用波形表示语音。将语音的声波信号表示成连续变化的图形。语音信号波形是语音声波经过模－数转换，得到的连续时间函数。二、语音信号数字处理的基本概念二、语音信号数字处理的基本概念二、语音信号数字处理的基本概念 12.语音信号的采集：采样前先对语音信号进行预处理。首先用低通滤波器以防止信号混叠干扰；其次用高通滤波器抑制50Hz 的电源干扰。语音信号的能量绝大部分集中在4KHz 以下的频段内，一般为20－3400Hz。根据采样定理，采样频率必须大于Nyquist奈奎斯特频率，即两倍频宽。可保证信号的采集不会丢失信息。语音识别时常用的采样频率为10KHz 或16KHz。对电话数据采集一般用8K采样频率。