语言信号处理 报告语言信号处理 报告.docx

语言信号处理 报告语言信号处理 报告.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语言信号处理 报告语言信号处理 报告

语音信号处理课程报告语音信号处理的研究方向及相应描述: 语音信号处理的研究方向有语音识别、语音合成、语音编码、说话人识别。语音识别:语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,也就是让计算机听懂人说话。 语音合成: 语音合成是通过机械的、电子的方法产生人造语音的技术。语音合成是利用电子计算机和一些专门装置模拟人,制造语音的技术。它其实是将文字信息等转换成等价的语音,也就是让计算机开口说话。语音编码: 语音编码就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并进行数字传输。语音编码的目的是在保持一定的法复杂程度和通信时延的前提下,占用尽可能少的通信容量,传送尽可能高质量的语音。其就是用尽可能低的比特率来存储和传输语音数据。语音编码技术又可分为波形编码、参量编码和混合编码三大类。说话人识别: 说话人识别是通过对说话人语音信号的分析处理,自动确认是别人是否在所记录的话者集合中,以及进一步确认说话人是谁。说话人识别是根据语音波形中反映说话人生理和行为的特征的语音参数,自动识别说话人身份的技术。语音识别中的声学特征及其物理意义:在语音识别任务中,我们可以提取的声学特征有声波的频率(包括基频)、振幅、声压、声强、共振、共振峰等。频率:声波的频率是单位时间内,声波的周期数。频率是周期的倒数。基频是从语言波中提取出声带振动的基本频率,其方法既可以是测量基频本身,也可以是利用谐波来求出基频。基频随时间的变化方式,构成了声调和语调,它是重要的语声特征。人耳对于声波频率高低的感觉与实际频率近似成对数关系。基频的范围为:60Hz~500Hz 。振幅:声音引发传播介质振动偏移平衡位置的最大距离叫声波的振幅。声音的振幅大小表示了声波的能量大小。声压:声压就是大气压受到声波扰动后产生的变化,即为大气压强的余压,它相当于在大气压强上的叠加一个声波扰动引起的压强变化。声压p用来度量由于声波的传播而带来的气压的变化,单位为帕(Pa)。声压可以用来表示声音的强度。声强:声音传播时也伴随着能量的传播。声强是单位时间内通过垂直于声波传播方向的单位面积的能量(声波的能量流密度)表示。声强可以用来表示声音的强度。共振:共振是当一个物体受迫震动时,所加驱动频率等于物体固有频率时,使物体的振幅达到最大。所加的驱动频率为共振频率。共振峰:发出的声音和身体固有频率相同时出现共振,声音所到达的最高点称为共振峰。声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。DTW的语音识别方法:DTW(Dynamic Time Warping )是一种模板匹配技术,是基于相似度计算与匹配实现的识别方法。由于语音信号有很大的随机性,即使是同一个人在不同的时刻发的同一个语音,也不可能具有完全相同的时间长度。所以简单的将输入模版与相应的参考模板直接做比较存在很大的缺点。所以在孤立词识别中,时间归正处理是必不可少的。动态时间弯折(DTW)是把时间归正和距离测度计算结合起来的一种非线性归正技术。该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题。DTW基本原理:采用动态规划技术,将一个复杂的全局最优化问题转化为许多局部最优化问题,一步一步地进行决策。DTW就是要找一个最佳的时间归正函数,使待测语音的时间轴j非线性地映射到参考模版的时间轴上,使总的累计失真量最小。DTW算法就是通过局部最优化方法实现加权距离的总和最小。加权函数选取考虑两个因素:一是根据第n对匹配点前一步局部路径的走向来选取,惩罚45度方向的局部路径,一边适应I不等于J的情况,二是要考虑语音各部分给予的不同权值,以加强某些区别特征。可以对时间归正函数做些限制,保证匹配路径不违背语音信号各部分特征的时间顺序。一般归正函数满足1.单调性2.起点和终点约束3.连续性4.最大归正量不超过某一极限累计最小失真函数,表示到匹配点位置的前面所有路径中最佳路径的累计匹配距离。DTW算法具体步骤:1.初始化 2递归求累计距离3回溯求出所有的匹配点对。DTW算法中的模版训练算法有偶然模版训练法、顽健模版训练法、通过聚类方法。偶然模版训练法:它是一种简单的多模版训练方法。将每个词的每一遍语音形成一个模版。识别时,待识别矢量序列用DTW算法分别求的与每个模版累计失真后,判别它是输入哪一类。但是由于语音的偶然性很大,且训练时语音可能存在错误,具有较大的偶然性。顽健模版训练方法:将每个词重复说多遍,直到得到一对一致性较好的特征矢量序列。最

您可能关注的文档

文档评论(0)

cduutang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档