- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE1
文本无关的说话人识别系统设计、实现与应用研究
目录
TOC\o1-2\h\u21955文本无关的说话人识别系统设计与实现 1
31864第一章绪论 2
216481.1课题的研究背景与意义 2
2721.2当下说话人识别技术的研究情况 2
207091.3本文研究内容及组织结构 3
18009第二章语音信号基本原理 5
185162.1认识语音 5
101872.2认识听觉 6
164172.3语音信号的分析方法 6
80742.4本章小结 7
26341第三章说话人识别的基本理论 8
52603.1语音信号预处理 8
326783.2语音信号特征提取 9
315023.3说话人识别训练分类模型 13
19733.4本章小结 16
21354第四章说话人识别系统设计与实现 17
52364.1预处理 17
46164.2特征提取 18
314334.3说话人识别系统分类模型设计 19
49804.4系统所用数据集说明 21
103374.5说话人识别系统结果分析 21
313564.6本章小结 22
2166第五章NAO机器人 23
278585.1NAO机器人硬件平台 23
8535.2NAO机器人软件支持 23
68305.3NAOqi与音频信号处理 24
301105.4本章小结 24
15051第六章结束语 25
212576.1论文工作总结 25
279336.2问题和展望 25
绪论
1.1课题的研究背景与意义
语音,作为人类语言的物质载体,记录并传递了一个人的具有一定意义或目的的社会交际信息,是人类社会中信息交流的重要通道。同时,语音作为声音的一种,包含了声音的基本要素,比如音高、音强、音长等。由于每个人的发音器官与发声系统的特异性与确定性,不同语音的音色也不尽相同,从而为根据说话人语音的特异性特征参数来进行身份识别创造了条件。说话人识别,也正是通过提取不同语音的特异性参数来进行与文本无关的身份识别的技术。
随着人工智能相关科技的发展,通过计算机用数字化的方法进行语音的传送、储存、合成、增强以及识别成为了可能。说话人识别是语音处理的基本内容,并在现实世界中得到广泛应用。例如,它用于个人智能设备的基于语音的身份验证;它用于警方调查嫌疑人是否有罪的证据来源;它用于会议记录中基于音频的信息检索等等。这项技术已在金融、国家安全、司法、电子商务、电子政务等应用领域具有特殊的现实意义。
对比当下现有的成熟的识别技术,如面部识别、指纹识别等,说话人识别技术具有非接触、不易变、易采集等优点,在隐私性与可操作性上更胜一筹。因此,开发发展说话人识别技术意义非凡。
1.2当下说话人识别技术的研究情况
说话人识别问题早在上世纪50年代便已提出,1945年,贝尔实验室通过研究语音图谱总结了人体发声器官与发声系统的功能,并利用语音图谱手动完成了说话人识别的分类。1963年,出现了的一个自动说话人识别系统(ASR),不过,该系统将语音的平均谱向量作为输入,并以欧氏距离作为度量计算语音信号间的相似程度。继模式识别技术提出后,说话人识别技术研究的浪潮正式掀起。通过模式识别理论,科学家将工作重心从相似度计算转移到了语音信号的参数特征提取上来。1972年,B.Atal引入倒谱特征作为语音信号的分析,经验证发现,倒谱特征在识别系统中的表现明显优于其他特征。二十世纪八十年代,科学家提出了线性预测系数(LPC),进而与倒谱特征相结合,推出了线性预测倒谱系数(LPCC),这一特征至今仍被广泛用于语音信号学的研究领域。而真正奠定说话人识别关键特征提取部分的是1980年科学家提出的梅尔频率倒谱系数(MFCC),该系数基于人体发声的共振与人耳对不同频率的非线性感知能力提出,经过梅尔刻度的三角滤波器组映射得到的梅尔倒谱频谱,经验证具备着出色的鲁棒性,是语音信号学领域主流且十分重要的特征参数。
不仅是特征提取方法技术的不断革新,随着机器学习方法的深入研究,越来越多的分类算法得到开发与普及。例如,隐马尔科夫模型(HMM)的提出对说话人识别系统的分类准确率得到了极大改善。20世纪90年代,高斯混合模型(GMM)提出,基于高斯混合模型的各个分量描述可以对语音信号频谱的任意特征分布拟合,这使得鲁棒性得到了进一步的提高,同时使得说话人识别技术更为完善。步入21世纪以来,说话人识别技术的重点聚集于语音信号信道去噪的研究上,这一重点
您可能关注的文档
- 2025【常州天合光能公司人力资源管理信息系统建设问题及对策】论文任务书.doc
- 2025【常州天合光能公司税务筹划现状及问题的调研分析报告】4000字.doc
- 2025【常州天合光能公司无形资产管理中存在的问题及改善建议】7000字.doc
- 2025【常州天合光能企业应收账款的管理研究】开题报告文献综述3200字.doc
- 2025【常州天合光能企业营运能力分析及策略分析】9400字.doc
- 2025【承德露露公司产品质量成本控制存在的问题分析】文献综述开题报告3300字.doc
- 2025【承德露露精益成本管理存在的问题分析】开题报告4500字.doc
- 2025【传媒行业上市公司财务风险的计算分析—以芒果超媒为例】17000字(论文).docx
- 2025【传媒行业上市公司财务风险的现状分析】3000字.docx
- 2025【传统供应链金融助力中小企业融资的现状及挑战分析】4000字.docx
文档评论(0)