模式识别句法方法.PPTVIP

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别句法方法

Dr. Djamel Bouchaffra Applied Pattern Recognition CSE616 模式识别 Pattern Classification 第十章: 语音识别基础 语音识别概述 语音是人类信息交流的基本手段之一 让计算机能说会听是智能计算机系统的重要特征 语音识别技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响 语音识别概述 基于电话的语音识别技术,使计算机直接为客户提供 金融证券和旅游等方面的信息查询及服务成为可能,进而成为电子商务进展中的重要一环 作为声控产业,语音识别技术将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。 可以预言,语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响 语音识别概述 面对如此广阔的应用领域,目前国内外众多公司正积极推动语音识别技术的应用。 语音识别概述 微软:让计算机能说会听 Bill Gates 在97年世界计算机博览会(COMDEX)主题演讲会上描绘IT事业的发展宏图时,率先指出: 下一代操作系统和应用程序的用户界面将是语音识别。工业界应对语音识别领域的重大突破做好充分准备,因为那将是一场席卷全球的另一次热潮。 1998年11月5日,微软中国研究院在北京成立 重点研究计算机在中文环境下的易用性 语音识别概述 IBM:ViaVoice仍居主流 IBM公司潜心研究语音识别技术迄今已达30年之久,投资超过2亿美元。 IBM公司于1995年在北京成立了中国研究中心,中文语音信息处理成了该中心三大研究领域之一 1997年9月4日, IBM在北京推出了中文连续语音识别产品ViaVoice。 语音识别概述 Intel:做语音技术倡导者 1998年,英特尔公司也宣布致力于推广语音识别技术,除了在北京举办首届语音技术国际论坛之外,还在北京、上海、成都、广州等地展开了“基于英特尔框架的语音识别技术”的宣传活动。 联合了七家世界著名学术机构(中科院自动化所、清华大学、香港科技大学、香港中文大学、麻省理工学院、俄勒岗研究院、WATERLLOO大学)成立了“国际语音技术研究组织”,致力于计算机语音技术的基础研究 语音识别概述 国内开展语音识别的科研机构和高等院校主要有中科院声学所、自动化所、清华大学、北方交通大学。已有不少语音识别系统已研制成功 清华大学电子工程系与中国电子器件公司合作研制成功特定人语音识别与理解实时系统 四川大学计算机中心研发的特定人连续英语---汉语语音翻译演示系统 清华大学计算机科学与技术系研制的声控电话查号系统并投入实际使用 语音识别概述 语音中包含有多种有用的信息:语义信息、语言信息、说话人信息、情感信息等 语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中的上述信息的一门新兴的边缘学科 是模式识别的重要应用领域之一 语音识别的分类 按识别任务 说话人识别:说话人辩识、说话人确认 语种识别 关键词识别 语音识别与理解 语音识别的分类 按识别器的类型 孤立单词识别 连续单词识别 连续言语识别 语音识别的分类 按使用者情况 特定人语音识别 非特定人语音识别 语音识别的关键问题 连续语音词与词之间没有明显的停顿,词与词之间的分割比较困难 声学识别基元(如音素)受前后音素发音方式的影响(协同发音)使特征变得不稳定 不同人、不同心理和生理以及在不同的说话环境下说同一词时,声学信号特征会发生变化 一个词的读音不仅包含了词义特征,而且还包含了说话人性别、年龄、情绪等大量与词义无关的信息,而这些信息的分离是不容易的 语音识别系统结构 语音信号预处理 对语音信号进行转换,使之更适合计算机处理,并符合特征提取的要求 语音信号数字化 频率预加重 分帧 加窗 语音信号预处理 语音信号数字化 话音(也称语音),频率范围通常为300Hz~3400Hz 音乐( 由乐器演奏形成的规范的符号化声音),其带宽可达到20Hz~20kHz 语音信号的采样频率一般为8kHz,音乐信号的采样频率则应在40kHz以上 语音信号预处理 语音信号数字化 语音信号预处理 频率预加重 语音信号受声门激励和口鼻辐射的影响,高频部分(清音)幅度快速跌落 预加重的目的是提升高频部分,使信号频谱平坦,以便于提取特征参数 通常采用一阶FIR滤波器 语音信号预处理 分帧处理与加窗 语音信号是时变的非平稳过程 由于人的发音器官运动速度较慢,可以认为语音信号是局部平稳的,或短时平稳的 采用分段或分帧来进行分析,即认为在同一帧时间内语音信号是平稳的 一般每秒帧数为33-100帧 语音信号预处理 分帧处理与加窗 通过加窗处理实现语音信号分帧 语音信号预处理 矩形窗: 汉明窗

您可能关注的文档

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档