第01讲--绪论-语音信号处理基础知识.pptx

第01讲--绪论-语音信号处理基础知识.pptx

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音信号处理是许多信息领域应用的核心技术之一,是目前发展最为迅速的信息科学研究领域中的一个。语音信号处理是目前极为活跃和热门的研究领域,其研究涉及一系列前沿科研课题,且处于迅速发展之中;其研究成果具有重要的学术及应用价值。;该门课程的教学要求: 大纲:选修课 考查(考试方式);1. 语音信号处理技术的应用 2. 语音信号处理技术的发展概况;§1. 1 语音信号处理技术的应用 语音是人类最重要、最有效、最常用和最方便的交换信息的方式;让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法;语音信号处理技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。 下面介绍语音信号处理技术的广泛应用。;(1)语音编码(语音压缩编码、语音压缩) 必要性:数字化语音信号的存储要占用一定的空间,传输要占用一定的带宽。为了节省空间和带宽需要对语音信号进行压缩编码。 如果只按照传统的模数转换技术对语音信号进行数字化,那就必须传输或存储大量的数据。假定采样速率为8kHz,对每个样本进行16位A/D转换,那么每秒的语音数据量将达到128kbps。这么高的位率通常是不允许的,必须对其进行压缩。;发展现状:自从30年代末提出脉冲编码调制(PCM)原理以及声码器的概念后,语音编码一直沿着两个方向发展:语音信号波形编码与声码化编码,或者是非参数化编码与参数化编码。参数编码有时也称为模型编码。 1)波形编码 语音信号波形编码的特点是:力图使重建的语音波形保持原始语音信号的波形形状。这类编码器通常将语音信号当作一般的波形信号来处理,具有适应能力强、话音质量好等优点,但是所需要的编码速率高。如:PCM、增量调制、自适应增量调制等。;2)参数编码 参数编码通过对语音信号特征参数的提取及编码,力图使重建的语音信号具有尽可能高的可懂度,即保持原语音的语意,但是重建信号的波形同原语音信号的波形相比可能会有相当大的差别。参数编码的主要问题是:合成语音质量低,自然度较差,有时甚至连连熟人也不一定能听出讲话人是谁。另外,这类编码器对讲话的环境噪声比较敏感,需要安静的讲话环境才能给出较高的可懂度。如:线性预测声码器等。;3)混合编码 混合编码克服了原有波形编码与参数编码的弱点,结合了它们各自的长处,在4~16kbps速率上能够得到质量比较好的合成语音,在本质上具有波形编码的优点。 如:多脉冲激励线性预测编码、规则脉冲激励线性预测编码、码本激励线性预测编码等。; 应用:带宽受限信道的数字话音传输(蜂窝移动通信、卫星通信等)、可视电话、语音的数字存储、呼叫服务(数字录音电话、语音信箱等); 方向:低码率高质量的音频编码技术和算法。语音压缩通常根据实际应用情况,进行三方面的均衡,即位率、质量和清晰度、编解码算法的复杂度。例如,有的数字语音录放系统对编码器实时性要求不高,但希望有较高的压缩效率,以降低所需存储器的容量;对于解码器,则要求算法尽量简单、成本低,并能够实时或基本实时解码;数字通信系统则要求能够实时编解码。 ;(2)语音识别 作用:将语音转换成等价的书面信息,即让计算机听懂人说话。语音识别是建立计算机听觉系统的基础,它使得任何计算机之间利用自然语言进行通信成为可能。 语音识别的一般过程: 在训练阶段,用户将词汇表中的每个词依次说一遍,语音分析单元对输入语音进行分析,并将其特征矢量序列作为模板存入模板库。 在识别阶段,将对输入语音分析得到的特征序列与模板库中的每一个模板相匹配比较,将相似度最高者作为识别结果输出。;预处理包括反混叠滤波、数模转换、自动增益控制、噪声消除、去除声门激励及口唇辐射影响,以及端点检测和自动分段。其中,端点检测和自动分段决定于系统选择的识别单元的大小。基元可以是音素、音节字、或词。基元选得小,存储的模板量可以减少,但对分割技术要求会提高,并会影响识别率。;提取各种声学参数,包括时域参数、频域参数、倒谱域参数和超音段信息。 时域参数:短时平均能量、短时平均过零率、和短时自相关函数。 频域参数:滤波器组平均谱、线谱、共振峰信息共振峰频率、带宽、幅值、和线性预测系数。 倒谱域参数:倒谱系数。 超音段信息:音长、音调、声调;用统计模型通常是隐马尔可夫模型,由训练样本得到各类的模型参数。 参考模板就是由训练或聚类的方法得到的语音库。 未知的语音样本要通过与语音库中的各个模板进行比较才能得到识别。;应用前景: A、声控应用,计算机识别语音内容,并实施相应的动作。 典型系统:声控电话转换、声控语音拨号、声控智能玩 具、信息网络查询、银行、家庭服务等; B、听写系统,以口授方式将文字输入计算机; C、自动口语翻译,将一种语言翻译成另一种语言,如中科 院开展

文档评论(0)

专业写作找文采 + 关注
实名认证
服务提供商

修改润色代笔文章撰写。

1亿VIP精品文档

相关文档