语音识别发展现状及展望.pdf

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望 科院自动化研究所 徐波 2011年12月4 日 报告提纲 • 语音识别技术现状及态势 • 语音识别技术的行业应用 • 语音识别技术研究方向 • 结论与展望 2010年始语音识别重新成为产业热点 移动互联网的兴起成为ASR最重要的应用 环境。在Google引领下,互联网、通信公 司纷纷把语音识别作为重要研究方向 – Android系统内嵌语音识别技术,Google语音 翻译等; – iPhone4S 上的Siri软件; – 百度、腾讯、盛大、华为等都进军语音识别领 域; – 我国语音技术领军企业讯飞2010年推出语音云 识别、讯飞口讯 – 已有的QQ2011版语音输入等等 成熟度分析-技术成熟度曲线 美国市场调查咨询公司Gartner于2011年7月发布《2011 新兴技术成熟度曲线》报告: 成熟度分析-新兴技术优先矩阵 Gartner评出了2011年具有变革作用的技术,包括 语音识别、语音翻译、自然语言问答等。其中语音 翻译和自然语言问答有望在5-10年内获得大幅利用 ,而语音识别有望在2-5年内获得大幅利用; 三十年语音识别技术发展 特征提取与知识方面 MFCC,PLP,CMS,RASTA,VTLN; HLDA, fMPE,neural net-based features 前端优化 – 融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) 特征很大特点有些是跟模型的训练算法相匹配 大规模FSN图表示,把各种知识源集中在一起 – bigram vs. 4-gram, within word dependencies vs. cross-word 三十年语音识别技术发展 模型与算法 统计模型HMM – EM、MAP/MLLR 自适应 – MMIE、MPE、fMPE训练(2005 ) – boosted MMIE(bMMIE) 训练(2008 ) – 基于最大边距(Large margin)分类的区分度训练( 2004-2008 ) 优化模型精度 – 声学上下文建模 Quinphone (五音子)、Septaphone (七音子) – 方差建模(SPAM、EMLLT、全方差建模等) – Subspace GMM(SGMM)建模(2009 ) 提出了更好的声学数据共享机制 三十年语音识别技术发展 有哪些信誉好的足球投注网站 A* 有哪些信誉好的足球投注网站 Viterbi有哪些信誉好的足球投注网站 多遍(Multi-pass )识别 多系统融合(ROVER )技术 三十年语音识别技术发展 ASR开放源码工具 HTK为基础的声学模型建模技术 – 剑桥大学的HTK (v3.4.1) LM模型建模技术 – 从传统的SRI的SRILM (v1.5) – 到能够处理更大规模语料的 微软的MSRLM (v0.1) 以及意大利IRST实验室的IRSTLM (v5.6) FSN 以及解码技术 – MIT的LibFST (v1.4.0) – Google的OpenFST (v1.2.7) 大词汇量连续语音识别技术发展概况 在电话、会议等复杂环境中目前英语识别率准确率在80% 左右,离人类2%-4% 的错误率还有很大距离 Moore定理及应用服务驱动计算能 力和方式的改变 云计算主要特征 – 低成本:一堆廉价的机器,但数量庞大; – 虚拟化技术:使用者感觉只面对一台机器; – 并行计算结构:程序必须支持并行计算 云计算类型 – 公有云:对外提供计算和存储服务等,utility ; – 私有云:对外提供应用服务,但满足低成本、虚拟化 以及

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档