- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声纹识别分析王姚
安徽科技学院2014-2015学年第1学期
《行业标准概论》课程论文
姓名:王姚
学号:1665110215
班级:电信112
声纹识别的分析
王姚
(数理与信息工程学院)
摘要:本文提出了一种可用于说话人识别的神经阵列网络,以美尔倒谱系数(Mel F requeney Cepstrum Coefficients:MFCC)BP算法建立了一个与文本相关的说话人辨认系统。同时,算法结合心理声学模型,提取了能表现说话人个性特征的Mel倒谱系数为特征进行说话人识别,可较好地提升系统的抗噪性能。该方法具有快速学习网络权重的能力,并且网络的全局寻优能力强,使得系统的识别率进一步提高。
问题一、要求建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话人特征,本文通过构建声纹特征MFCC系数模型,对语音数据进行提取、
预加重、分帧、傅里叶变换等处理提取特征参数。
问题二、要求利用说话人特征建立说话人模型或声纹识别模型。本文利用BP神经网络模型以建成声纹识别模型。通过对特征参数的训练、分类,从而达到多个人说话的语音中分辨出各个人的语音;
问题三、要求我们利用语音数据,评价说话人模型或声纹识别模型评价的好坏。本文对语音信号进行了预处理,解决了滤除高频噪音,防止50Hz工频干扰及平滑频域信号等一系列不利于MFCC系数提取的因素,同时,计算出识别的准确率和所用时间,从而判断模型的好坏和实用性;
问题四中,我们透彻分析影响准确率的因素,运用遗传算法优化BP神经网络进行优化,进一步提高声纹识别的准确率。
关键词:美尔倒谱系数 遗传算法神经网络 声纹识别 BP神经网络
一、问题重述
生物认证是通过人体特征进行人物身份认证的重要手段,包括人脸识别、虹
膜识别、指纹识别、体态识别和声纹识别等方法,它们被广泛地应用于国防、军
事和民用等诸多领域,推动着信息产业的蓬勃发展。
声纹识别又称说话人识别,是通过分析说话人的语音的特点,利用计算机自
动识别说话人的身份。声纹识别又分为文本相关和文本无关说话人的识别两大类。文本无关是指说话人的说话内容不受限制,文本相关是指说话人的说话内容必须是指定的内容。
评价声纹识别方法或模型的最重要指标是识别准确率,准确率越高越宜于应
用于实际。评价的另外一个重要指标就是识别所花的时间,即输入待识别的说话
人语音到识别结果的输出说话的时间,该时间越短约好。
请试着利用采集到的说话人语音数据(文本相关和文本无关两类),完成以下几点:
1)建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话人特征;
2)利用说话人特征建立说话人模型或声纹识别模型;
3)利用语音数据评价你的说话人模型或声纹识别模型评价的好坏;
4)分析影响准确率的因素,采取措施进一步提高声纹识别的准确率。
二、问题分析
2.1 问题一要求建立代表说话人身份的语音特征,并且能够通过编程从语音数据中提取说话人特征。首先,我们要对输入的原始信号进行预处理,过滤其中不重要的信息以及背景噪声等,进行语音信号的端点检测,并进行语音信号的分帧以及预加重等处理工作。
对采集到的语音样本的预处理包括预加重、加窗分帧和端点检测。预加重主要是为了消除发声过程中声带和嘴唇的效应,补偿语音信号收到发音系统所压抑的高频部分,将原始语音信号通过一个高通滤波器:
式中u 为预加重系数,通常取值0.95 左右。
本系统采用一个窗长为256,窗移是128的汉明窗在语音序列上滑动,对语音进行加窗分帧处理。通过对语音信号的短时能量和短时过零率实现比较精确的端点切分,可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取MFCC等特征参数非常有用的浊音信号。
2.2 问题二是对说话人的语音进行识别,语音特征信号识别是语音识别研究领域中的一个重要方面,我们采用模式匹配的原理解决。语音识别的运算过程为:首先,待识别语音转化为电信号后输入识别系统,经过预处理后用数学方法提取语音特征信号,提取出的语音特征信号可以看成该段语音的模式。然后将该段语音模型同已知参考模式相比较,获得最佳匹配的参考模式为该段语音的识别结果。语音识别流程如图2.2.1所示
流程图如下:
图2.2.1 说话人识别模型流程图
本模型中我们选取了001,002,003,004四类不同音频,用BP 神经网络实现对这四类音频的有效分类。每段音频都用上述倒谱系数法提取500组24维语音特征信号,提取出的语音特征信号。
2.3问题三要求
您可能关注的文档
- 初中学业考试实验操作技能测试试卷.doc
- 中国古代工艺美术鉴赏概略.doc
- 河南计量授权检定项目表.doc
- 年轻女性 谨防宫颈癌.doc
- 实验一 空气定压比热容测定 2.doc
- 英语前缀夸克分类法.doc
- 初中英语比较级最高级.doc
- 原创评语大全.doc
- 语料库被字句.doc
- 互联网技术在物流行业的应用.doc
- 2024年学校党总支巡察整改专题民主生活会个人对照检查材料3.docx
- 2025年民主生活会个人对照检查发言材料(四个带头).docx
- 县委常委班子2025年专题生活会带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”对照检查材料四个带头:.docx
- 巡察整改专题民主生活会个人对照检查材料5.docx
- 2024年度围绕带头增强党性、严守纪律、砥砺作风方面等“四个方面”自我对照(问题、措施)7.docx
- 2025年度民主生活会领导班子对照检查材料(“四个带头”).docx
- 国企党委书记2025年度民主生活会个人对照检查材料(五个带头).docx
- 带头严守政治纪律和政治规矩,维护党的团结统一等(四个方面)存在的问题整改发言提纲.docx
- 党委书记党组书记2025年带头增强党性、严守纪律、砥砺作风方面等“四个带头”个人对照检查发言材料.docx
- 2025年巡视巡察专题民主生活会对照检查材料.docx
文档评论(0)