声纹识别统的应用.ppt

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音声纹识别技术及应用 ③主要内容 声音处理技术 语音识别技术 声纹识别技术 技术演示 语音声纹识别技术及应用 声音处理 声音的三要素 声音的三要素是音调、音色和音强 音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。 音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和 不同振幅的混合声音 音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振 幅越大,强度越大。 音质 心对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。 心音质与声音还原设备有关。 心音质与信号噪声比(SNR)有关。 语音声纹识别技术及应用 /幽音处理 数字化的音频文件主要分为4类 波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“,wav MID音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名 是“. CD-DA音频文件。标准激光盘文件,扩展名是“,cda”。 压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该 格式的文件简称MP3文件 /西音处理 获取声音 ●获得CD中的声音 如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转 换成计算机能够处理的数字化声音,这就是“采样”。可以使用 Easy CD DA Extractor、 CoolEdit等音频处理软件对音频进行编辑和处理。 录音 要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高 的采样频率。可以使用 windows系统自带的“录音机”进行录音 ●声音转换 声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件, 使用 Windows的“录音机”转换即可,并且转换功能很强 如果要进一步处理,可采用 CoolEdit(Adobe Audition)工具软件。 语音声纹识别技术及应用 短时能量和过零率 ¢。语音分帧 每帧10-30ms,帧间隔10ms o短时能量 对数 g 平方和E=2x0) 绝对值E=z|xo o过零率(zcR) z=1∑gnm)-gmmn 语音声纹识别技术及应用 参数提取的预处理 。预加重 y n=xn-c·xn 0.9c1.0 一减少尖锐噪声影响,提升高频部分 o加窗: Hamming2xn)0nN =054-046cs N 一减少Gbbs效应 语音声纹识别技术及应用 各种参数的比较 o Linear Prediction Cepstrum Coefficients(LPCC) 假定所处理信号为自回归信号(不适用辅音) 计算简单,但抗噪性差 o Mel-Frequency Cepstrum Coefficients(MFCC) 模拟人的听觉模型; 强调低频部分,屏蔽噪声影响; 识别率高,但计算量大 能量 辅助作用,需归一化 音调 对算法要求高,适于二次判别。 语音声纹识别技术及应用 AMe-频率 o目的:模拟人耳对不同频率语音的感知 o人类对不同频率语音有不同的感知能力 1kHz以下,与频率成线性关系 1kHz以上,与频率成对数关系 oMe频率定义 1Me|-1kHz音调感知程度的1/1000 语音声纹识别技术及应用 AMe-频率 b公式 B(f)=115n(1+f/700) f-频率B-Mel-频率 频率一Me|-频率: ■ 500 1000 1500 2000 2500 3000 3500 4000 频率(Hz) 语音声纹识别技术及应用

文档评论(0)

bokegood + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档