7_语音识别技术及应用_课件_1002_电子系_王侠摘要.ppt

7_语音识别技术及应用_课件_1002_电子系_王侠摘要.ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音识别基础知识 清华大学 电子工程系 语音信号处理实验室 王 侠 语 音 识 别 基 础 知 识 什么是语音识别? 语 音 识 别 基 础 知 识 语音识别就是计算机对语音进行识别和理解的过程。是将语音转换成文本或命令的高技术。 语音识别有两层含义: 第一种是将口语逐字逐句转成相应的书面文字。 第二种是对口语的含义作出互动的响应。 语 音 识 别 基 础 知 识 语音识别流程基本框图 语 音 识 别 基 础 知 识 听写机演示系统: 语音 文字 这是由国家863高科技术项目“人机交互技术平台” 课题产生的科研成果--听写机系统。 系统声学模型的训练数据基于标准普通话。 系统语言模型的训练是基于10年的人民日报。 语 音 识 别 基 础 知 识 一、语音学的基本知识 二、语音信号数字处理的基本概念 三、语音识别的研究目标和内容 四、语音识别的主要应用领域 一、语 音 学的基本 知 识 1.发音过程:是由于声带振动发出的声能。 一、语 音 学的基本 知 识 3.清音和浊音 清音:发音时声带不颤动的是清音。 浊音:发音时声带颤动的是浊音; 拼音中声母共21个有4个浊音:m,n,l,r。其余的声母都是清音。韵母有39个,都是浊音。 一、语 音 学的基本 知 识 一、语 音 学的基本 知 识 4.音素:是最小的语音单位。 * 按生理性质定义,一个发音动作形成一个音素。 * 按声学性质定义,音素是从音质角度划分出来的 最 小语音单位。 如ma包含m、a 两个发音动作,是两个音素。 每种语言都有其特定的音素集合,一般在30-50个之间。 英语按音标分有48个音素。 一、语 音 学的基本 知 识 5.辅音和元音: 音素一般分为元音和辅音两大类。 辅音:气流在口腔或咽头受阻碍而形成的音叫辅音,如 b 、 p、 m 、 f等。 元音:气流振动声带,在口腔、咽头不受阻碍而形成的音叫元音,如 α、 o 、 e 、 i 、 u 等。 6.声母和韵母: 汉语语音分为声母和韵母。声母对应于辅音。韵母对应于元音。 一、语 音 学的基本 知 识 7.音节:是由声母(辅音)+韵母(元音)构成 汉语是单音节语言,一个字就是一个音节。 按汉语拼音方案,汉语的发音包含: 21个声母 (辅音)+ 39个韵母(元音) 无论从能量上看还是从时间上看,元音在一个 音节中都是占主要部分。 一、语 音 学的基本 知 识 8.语音四要素: 音高、音强、音长、音质。 任何一种声音都具有这四个方面的物理属性。 其中,音高决定于频率,频率同音高成正比。音强决定于振幅。音长决定于发音体振动的时间,音质决定于音波的形式。 音质是声音四要素中最重要的。发音体不同,发音方法不同,以及共鸣器的形状不同,音质就不同。 一、语 音 学的基本 知 识 9. 语音的属性: * 语音的生理属性:由发音器官协同动作而产生。 * 语音的心理属性:发声时,先经过大脑神经中枢指挥协同,这是个复杂的心理过程。 实验证明,人的主观听觉和语音的客观声学效果之间并不总是一对一的关系。 * 语音的社会属性:语音是一种社会现象,它和语言的意义紧密联系在一起。这种联系是由社会约定俗成的。它体现民族性和地域性。 二、语音信号数字处理的基本概念 10. 语音信号数字处理的基本理论和研究围绕两个方面展开: * 从语音的产生和语音的感知角度进行研究。 * 将语音作为一种数字信号进行分析处理。 二、语音信号数字处理的基本概念 11.语音信号的表示方式 其一,用信息来表示,即参数表示。 用数字表示每个音素在时域和频域上变化的信息。 其二,用波形表示语音。 将语音的声波信号表示成连续变化的图形。 语音信号波形是语音声波经过模-数转换,得到的连续时间函数。 二、语音信号数字处理的基本概念 二、语音信号数字处理的基本概念 二、语音信号数字处理的基本概念 12.语音信号的采集: 采样前先对语音信号进行预处理。首先用低通滤波器以防止信号混叠干扰;其次用高通滤波器抑制50Hz 的电源干扰。 语音信号的能量绝大部分集中在4KHz 以下的频段内,一般为20-3400Hz。根据采样定理,采样频率必须大于Nyquist奈奎斯特频率,即两倍频宽。可保证信号的采集不会丢失信息。 语音识别时常用的采样频率为10KHz 或16KHz。 对电话数据采集一般用8K采样频率。

文档评论(0)

文档资料 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档