基于BP神经网络的语音识别技术.pptx

下载文档 降价啦

13
0
约1.94千字
约 28页
2020-10-30 发布于未知
举报
版权申诉
保障服务

基于BP神经网络的语音识别技术.pptx

1、本文档共28页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

学海无涯 ;2;3;4;5;学海无涯可以用三个子模型：激励模型、声道模型、辐射模型的串联来表示。激励模型一般分为浊音激励和清音激励。发浊音时，由于声带不断张开和关闭将产生间歇的脉冲波，这个脉冲波类似于斜三角形的脉冲。发清音时，无论是发阻塞音或摩擦音，声道都被阻碍形成湍流。所以，可把清音激励模拟成随机白噪声。声道模型有两种最常见的建模方式。一是把声道视为由多个等长的不同截面积的管子串联而成的系统，按此观点推导出的叫“声管模型”；另一个是把声道视为一个谐振腔，按此推倒出的叫“共振峰模型”。从声道模型输出的速度波与语音信号的声压波之倒比称为辐射阻抗，它表征口唇的辐射效应。由辐射引起的能量损耗正比于辐射阻抗的实部，所以辐射模型是一阶类高通滤波器。;7;学海无涯 ;学海无涯容易丢失信号特征。一般取帧长 20ms，帧移为帧长的 1/3~1/2。在语音信号数字处理中常用的窗函数是矩形窗、汉明窗等，它们的表达式如下（其中 N 为帧长）：矩形窗：;学海无涯段)来计算确定。因此,只有准确地判定语音信号的端点,才能正确地进行语音处理。端点检测的目的是从包含语音的一般信号中确定出语音的起点以及终点,一般采用平均能量或平均幅度值与过零率相乘的方法来判断。这种利用短时能量和短时平均过零率两种特征共同参与检测，也被称为双门限法。 (1)短时能量设S(n)为加窗语音信号，第t 帧语音的短时平均能量为：;11;N;学海无涯整个语音信号的端点检测可以分成四段：静音、过渡段、语音段、结束。在静音段，如果能量或过零率超越了低门限，就应该开始标记起始点，进入过渡段。在过波段中，由于参数的数值比较小，不能确信是否处于真伪的语音段，因此只要两个参数的数值回落到低l、J 限以下，就将当前状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限，就可以确信进入语音段了。当前状态处于语音段时，如果两个参数的数值降低到低门限以下，而且总的计时长度小于最短时间门限，则认为这是段噪音，继续扫描以后的语音数据。否则就标记好结束端点，并返回。从而达到抗干扰的目的、提高识别率。如下图所示。;学海无涯的处理，从而得到一个矢量序列，这个矢量序列可以代表原始的语音信号所携带的信息，初步实现数据压缩。特征参数主要有：能量、幅度、过零率、频谱、倒谱和功率谱等。考虑到其他因素的影响，还有许多基于基本参数的参数，本文选用了 MEL 频率倒谱系数(MFCC)进行提取特征参数。 MFCC 系数的计算是以“bark”为其频率基准的，它和线性频率的转换关系是： (2-9) MFCC 系数也是按帧计算的，首先要通过 FFT 得到该帧信号的功率谱S(n)，转换为Mel 频率下的功率谱。这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器： NHm(n) m=0,1,…,M-1; n=0,1,…,N/2-1 （2-10） M 为滤波器的个数，通常取 24，与临界带的个数一样；N 为一帧语音信号的点数，为了计算FFT 的方便，通常取 256。滤波器在频域上为简单的三角形，其中心频率fm 在Mel 频率轴上是均匀分布的。从图 2.5 就可以看到MFCC 系数的计算过程如下：预处理：确定每一帧语音采样序列的长度(如 N=256)，并对每帧序列 s(n) 进行预加重、分帧和加窗处理；计算离散功率谱：对预处理的每帧进行离散 FFT 变换得到其频谱，再取模的平方作为离散功率谱S(n)；将功率谱通过滤波器组：计算 S(n)通过M 个Hm(n)后所得的功率值，即计算S(n)和Hm(n)在各离散频率点上的乘积之和，得到 M 个参数Pm，m=0,1,…… M-1；取对数：计算Pm 的自然对数，得到 Lm，m=0,1,……M-1；离散余弦变换：对 Lm 计算其离散余弦变换，得到 D m，m=0,1,……M-1，舍去代表直流成份的 D0，取 D1，D2，……，Dk 作为 MFCC 参数。;学海无涯 ;学海无涯 ;17;18;学海无涯 [net，tr]=train(net，P，T)；％网络训练其中[net，tr]中的net 为更新了权值的神经网络，tr 为训练记录(次数和每次训练的误差)。从相关的神经网络训练中可以看出，当神经网络的误差平方 0．0000718 时，小于性能目标值 0．0001，神经网络训练结束，开始进行系统的性能测试。图 3 为学习误差曲线图。;20;21;22;23;24;25;26;27;28