- 1、本文档共120页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4、基础知识 本章内容 人类听觉特点与语音质量评价 语音信号处理基础 人类视觉特点与图像质量评价 图像信号处理基础 其他数据的特点 人类对语言的认识 语言的产生 决定想传达给对方的内容是什么 将内容转化成语言的形式(词和语法) 语言学 研究语音中各个音的排列规则及其含义,包括重音、语调、声调等(各国语言,各民族语言,地方方言等) 语音学 研究语音信号是由哪些最基本的单位组成的,发声器官是如何发出声音的,建立语音产生模型,便于人类对语音信号的特性进行研究 语音的产生 声门(激励源) 肺部:产生能量 喉部:产生声带的振动 声道(信道) 口腔 鼻腔 嘴 人能够发出各种不同的声音,取决于声门和声道中各种可变的部分 声带 振动:产生浊音(元音和浊辅音) 不振动:产生清音(清辅音) 声道: 是一个具有某种谐振特性的腔体,且其横截面积是可变的 声道的频率特性主要取决于声道截面的最小值出现的位置,主要由舌的位置来控制 嘴是声道的最末端,嘴的形状也影响所发出的声音 用数学模型表示语音信号 用数学模型分别模拟 激励源 声道 辐射模型 语音是时变信号,但可以认为在10-20ms的时间范围内是近似不变的 语音的数字模型是一个缓慢时变的线性系统,在10-20ms的时间内是时不变系统 1、激励源模型 激励源 浊音: 激励信号由一个周期脉冲发生器产生,其周期称为基音周期 为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使这一脉冲序列通过一个声门脉冲模型滤波器,其传输函数为G(Z) 清音:激励信号由一个随机噪声发生器产生 1、激励源模型 浊音 声门脉冲滤波器 浊音的产生模型 周期信号,通过一个声门脉冲滤波器,经过幅度调节,产生浊音信号 清音 2、声道模型 声道可以用一个全极点模型来模拟,其系统函数的极点对应为语音的共振峰 3、嘴唇辐射模型 嘴唇辐射模型与嘴型有关,其传输函数: 完整数学模型 系统函数 人类说话和收听的过程 影响语音感知的主要因素 听觉范围 正常人可听声音的频率范围为0.016---16KHz,年轻人可听到20KHz的声音,而老年人可听到的最高频率为10KHz左右 感觉域:容忍的最高声压。当声压高到一定程度时,耳朵会出现不适感。对正常人而言,一般取120dB为不适阈,140dB为痛阈,且与频率无关。强度范围为-5dB~130dB 强度差阈:正常人对频率固定的声音所能辨别的最小强度差值 人耳的听阈曲线 听阈:声音能被听见的最低声压 人耳对各频率声音所能听到的最小声压级所绘出的听阈曲线 图中,2kHz~5kHz,人耳对这一频段的声音最敏感 影响语音感知的主要因素 音调 对于频率低的声音,听起来感觉它的音调“低”,而频率高的声音,听起来感觉它的音调“高” 但是音调与声音的频率并不成严格的正比关系,它还与声音的强度及波形有关 影响语音感知的主要因素 掩蔽效应 当人耳听到两个强度不同的声音时,强的声音的频率成分会影响人耳对弱的声音的频率成分的收听 频率掩蔽:通常,低音容易掩蔽高音,而高音掩蔽低音较难 时间掩蔽:强声音后面的弱音容易被掩蔽;强声音前面的弱音也容易被掩蔽 时间掩蔽示意图 影响语音感知的主要因素 掩蔽效应 噪音对单音的掩蔽:一个单音可以被以它为中心频率,具有一定频带宽度的连续噪音所掩蔽 噪音掩蔽的临界带宽:如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚能被听到的临界状态,则称这一带宽为临界带宽 音频中的信息隐藏,主要利用人耳听觉特性以及掩蔽特性,设计隐藏算法 如回声隐藏等 语音信号的特征波形 静息波 准周期波 噪声波 脉冲波 语音信号的特征波形 元音的共振峰 影响语音感知的主要因素 限幅 峰值削波:将幅度超过某一门限的值限制在门限上 中心削波:将幅度小于某一门限的值置为零 限幅的影响 在峰值无限削波的情况下,仍然相当好地保留了单词的清晰度 削去声波幅度的一半,清晰度几乎降为零 结论:语音信号中的大部分信息都保存在其低幅值的部分 影响语音感知的主要因素 语音强度 语音强度,影响对语音的正确辨别率 频率选择性 虽然语音信号的大部分功率包含在低频分量之中,但是它们对清晰度的贡献并不是很大 去掉高频成分对于辅音清晰度影响大 去掉低频成分对于元音清晰度影响大 影响语音感知的主要因素 频率选择性 用低通滤波器 保留5KHz以下的频率成分,清晰度不受影响 保留1.5KHz以下的频率成分,清晰度约下降一半 保留200Hz以下的成分时,清晰度降为零 用高通滤波器 保留400Hz以上的频率成分清晰度基本不受影响 保留1000Hz以上的部分,则语音信号的功率可能损失了约80%,但清晰度却仅下降了10% 保留2300Hz以上的频率成分,清晰度下降一半左右 保留6KHz以上的频率成分时,清晰
文档评论(0)