- 1、本文档共28页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声纹自动识别技术的关键与核心算法鄭 方fzheng@d-E; fzheng@ 北京得意音通技术有限责任公司 清华大学智能技术与系统国家重点实验室 地址:北京市海淀区上地信息路2号D栋505室电话/传真:(8610)8289 6531邮编:100085 公司核心技术概述--三大核心技术方向 公司核心技术概述--六大应用方向 公司技术力量 主要的创业者和技术、管理团队都毕业于清华大学计算机科学与技术系,技术队伍均为计算机应用专业的博士,并有在国内外著名公司工作的经验。 得意公司技术源自清华大学,并有面向市场的进一步发展。得意公司与清华大学智能技术与系统国家重点实验室建有“清华—得意语音技术联合实验室”,结成了牢固的“产学研”联盟。 与中国军方、中国刑警学院等有良好的合作 清华大学语音技术中心 (Center of Speech Technology) 成立于1979年,隶属清华大学智能技术与系统国家重点实验室。全国最早从事语音和语言处理的研究单位之一。 智能技术与系统国家重点实验室(LITS)是在信息技术领域处于全国领先地位的国家重点实验室,在1994年、1997年和2002年国家计委组织的全部三次全国国家重点实验室评审中均为A 。 语音技术中心承担国家重点攻关任务、863高科技研究任务、973重点基础研究任务、军方科研任务、清华大学一流大学重点学科建设985项目,以及许多国际和国内合作项目等,并多次获奖。 语音技术中心研制成功的语音技术在国家863评测中一直名列前茅;在国际国内的会议和各种学术刊物上发表论文数百篇;同时研发了数十项语音产品,行销于国内外市场。其中声纹识别产品有成功的应用范例(北京某通讯公司)。 语音技术中心的成果和相关论文请参见 。 声纹识别核心技术 说话人识别的两个阶段 模型训练--学习 识别 说话人识别的分类 按识别任务分 说话人辨认 说话人确认 开集说话人辨认和说话人确认中的拒识问题 似然分数的计算 ?=p(X|S) / p(X | Bkg(S)) 冒名顶替者(Impostor)模型或背景(Background)模型Bkg 使用一个与说话人无关的统一模型UBM (Universal Background Model):pS(X|H0) = p(X|UBM) 使用一组其他说话人模型:pS(X|H0) = p(X|Bkg(S)),其中Bkg(S)是与说话人S相关的那些说话人模型的某种函数,如“平均”或“最大” 按说话内容分 文本无关(Text-Independent)--不限定说什么文本 语种无关 (Language-Independent) 语种相关 (Language-Dependent) 文本相关(Text-Dependent)--必须是特定的文本 必定语种相关 说话人识别需要攻克的难题 更具可分性的特征:多层次特征的使用 好的说话人模型:GMM、LBG等 短话音问题: 训练:基准模型+自适应 识别:累计判别 说话人发音方式发生变化(语言、内容、方式、身体状况、不同时间等):learning+adaptation 模仿声音问题:综合使用各种层次的特征;外加密码 多说话人情况下的说话人检测: 有限状态自动机:已有说话人集+冒名者 说话人改变检测(SCD) 说话人识别的特征提取 人类在进行说话人识别时常常用到多个层面(尤其是高层)的信息 语义、修辞、发音、言语习惯 - 社会经济状况、受教育水平、出生地 韵律、节奏、速度、语调、音量 - 个人特点、父母影响 语音的声学特性、鼻音、带深呼吸的、沙哑的等 - 发音机制的解剖学结构 现阶段很多系统只用到低层信息--声学特征 高层次的信息包括 语速 时序模板 基音模板 特性词/词组的使用 特性发音 笑声 …… 声纹自动识别模型目前可以使用的特征: 声学特征 (倒频谱) 词法特征 (说话人相关的词ngram,音素ngram) 韵律特征 (利用ngram描述的基音和能量“姿势”) 语种、方言和口音信息 通道信息 (使用何种通道) 将特征用于说话人识别的问题求解 argmax Prob (S | O) S – 说话人 O - 观察序列 观察序列,即特征序列,必须对说话人具有可分性:O={X, W, F, C, …} 声学特征(MFCC/LPCC): X = { x1, x2, …, xT} 词法特征(词、短语、音素等): W = { w1, w2, …, wN} 韵律特征: F = { F1, F2, …, Fp} 通道信息: C = { PC麦克风、固话、免提、手机、 手持设备、会议室麦克风, …} 声学特征(MFCC/LPCC): X = { x1, x2, …, xT} 词法特征(词、短语、音素等
您可能关注的文档
- 基于网络工程专业大学生的职业生涯规划调查研究-AtlantisPress.PDF
- 基于网络环境的探究性教学研究.PDF
- 基于组合特征的车牌字符识别-电子测量技术-仪器仪表学报.DOC
- 基于网络的师生发展平台有效性研究-广东电化教育馆.PPT
- 基于脉搏波数学模型的运动员运动状态判别方法-Journalof.PDF
- 基于肝藏魂理论观察疏肝活血方对慢性乙型肝炎-上海中医药杂志社.PDF
- 基于脑电和眼电的运动想象多尺度识别方法研究-电子学报.PDF
- 基于自适应动态规划的非线性鲁棒近似最优跟踪控制-控制理论与应用.PDF
- 基于自顶向下互联网特色计算机网络-CDIO.PPT
- 基于节奏和韵律调制谱特征的音乐流派分类-武汉大学学报·信息科学版.PDF
最近下载
- 600519 贵州茅台:2013年年度报告.pdf
- QSYTZ0523-2017油气管道定点测厚技术规范.pdf
- 第一单元 第一、二、三课 木材基础知识、度量和画线、锯切课件 2022-2023学年云南教育出版社劳技八年级下册.pptx VIP
- 房屋损坏赔偿协议书7篇.docx
- 2024年预见未来:中国元医院建设发展调研报告-瑞金医院&中国信通院.pdf VIP
- 区人社局乡村振兴工作总结.docx VIP
- HG_T20510-2014 仪表供气设计规范(完整版).doc
- 2025中级社会工作综合能力考试要点速记.pdf
- KDF电化学金属滤料.docx
- 泰坦之旅修改MOD教程和MOD文件解析.doc
文档评论(0)