- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
语音是语言的声学表现,语言是人类交流信息最自然、最有效、最方便的手
段。在高度信息化的今天,用现代手段研究语音处理技术,使人们能更加有效地
产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要
的意义。
语音处理的研究目标多种多样,所涉及的学科门类也是丰富多彩的,其中包
括了语音和语言学、声学、心理学、认知科学、计算机、数理统计、信号处理、
人工智能和模式识别等等,并且它始终与当前信息科学中最活跃的前沿学科,如
神经网络理论、小波变换理论、模糊集理论、时频分布理论和混沌与分形理论等
保持密切联系并共同发展着。语音处理研究者常常从这些领域的进展中找到突破
口,使语音处理技术研究取得突破性的进展,其研究成果具有重要的学术及应用
价值。语音信号处理主要包括语音识别、语音合成、语音压缩编码和语音增强等
分支[1]。
语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意
义,进而完成相应的功能。一般的方法是事先让用户朗读有一定数量文字、符号
的文档,通过录音装置输入、存储到计算机,作为声音样本。以后,当用户通过
语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识
别技术便将用户输入的声音与事先存储好的声音样本进行对比。系统根据对比结
果,输入一个它认为最“象”的声音样本序号,就可以知道用户刚才念的声音是
什么意义,进而执行此命令。因此通过语音识别技术,计算机可以“听”懂人类
的语言。
语音合成是人机语声的一个重要组成部分,语音合成技术赋予机器“人工嘴
巴”的功能,即解决让机器说话问题。是将计算机自己产生的或外部输入的文字
信息,比如文本文件内容、WORD文件内容等文字信息,按语音处理规则转换成语
音信号输出,即使计算机流利地读出文字信息,使人们通过“听”就可以明白信
息的内容。也就是说,使计算机具有了“说”的能力,能够将信息“读”给人类
听。这种将文字转换成语音的技术称之为文语转换技术,简称TTS(TexttoSpeech)
技术,也称为语音合成技术。
语音编码就是将模拟语音信号数字化,数字化之后可以作为数字信号传输、
存储或处理,可以充分利用数字信号处理的各种技术。为了减小存储空间或降低
传输比特率节省带宽,还需要对数字化之后的语音信号进行压缩编码,这就是语
音压缩编码技术。语音压缩编码的目的就是用尽可能低的数码率获得尽可能好的
合成语音质量,同时又要使编码过程的计算代价尽可能小。语音压缩编码技术在
移动通信、卫星通信、多媒体技术以及IP电话通信中得到普遍应用,起着举足轻
重的作用。
语音增强就是从带噪语音中提取纯净语音,也即语音消噪。语音增强主要应
用范围是降低听觉噪声、识别系统的预处理和线性预测编码的预处理,这种技术
对于语音识别和说话人识别是十分重要的。
语音信号分析是语音信号处理的前提和基础,只有分析出可表征语音信号本
质特征的参数,才有可能利用这些参数进行高效的语音合成、语音识别、语音压
缩编码等处理,其中基音周期是最重要的语音信号的特征参数之一[2]。
1.2基音周期概述
1.2.1基音周期的定义及意义
人在发浊音时,气流通过声门使声带产生张驰振荡式振动,产生一股准周期
脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大
部分能量。这种声带振动的频率称为基频,相应的周期就称为基音周期(Pitch),
它由声带逐渐开启到面积最大(约占基音周期的50%)、逐渐关闭到完全闭合(约
占基音周期的35%)、完全闭合(约占基音周期的15%)三部分组成[3]。
基音周期的估计称为基音检测[4](PitchDetection),基音检测的最终目标是
画出和声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则尽量找出相
吻合的轨迹曲线。
在语音信号处理中,语音信号参数提取的准确性非常重要。只有获得准确的
参数,才能利用这些参数进行高效的处理,而在许多参数提取中,基音周期的提
取尤为重要,广泛地应用于语音压缩编码、语音分析合成以及语音识别等方面,
所以,准确可靠地估计并提取基音周期对语音信号处理至关重要[5][6]。它直接影
响到合成语音是否真实再现原始语音信号,影响到语音识别的识别率,影响到语
音压缩编码的正确率。
1.2.2影响基音周期检测的因素
由于声道的易变性及声道特征因人而异,而基音的范围又很宽,即使是同一
个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音
文档评论(0)