语音识别技术(数学建模).pdf

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音识别技术(数学建模)

一、 问题重述 语音识别技术,也被称为语音识别 (英语:Automatic Speech Recognition, ASR)。其目的就是让机器 “听懂”人类口述的语言,这包含了两方面的含义: 一是逐字逐句将人类的语音中的词汇内容转换为计算机可读入的输入,例如按 键、二进制编码或者字符序列;其二是对口述语言中所包含的要求或询问加以理 解,并做出正确响应。 语音识别技术已经发展成为涉及声学、语言学、数字信号处理、人工智能等 多学科的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场 景下获得了成功的应用,不同任务条件下所采用的技术又会有所不同。语音识别 系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预 先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统 所需要的 “声学模型”和 “语言模型”;而识别过程通常是在线完成的,对用户 实时的语音进行自动识别。识别过程通常又可以分为 “前端”和 “后端”两大模 块: “前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、 降噪、特征提取等;“后端”模块的作用是利用训练好的 “声学模型”和 “语言 模型”对用户说话的特征向量进行统计模式识别(又称 “解码”),得到其包含 的文字信息。此外,后端模块还存在一个 “自适应”的反馈模块,可以对用户的 语音进行自学习,从而对 “声学模型”和 “语音模型”进行必要的 “校正”,进 一步提高识别的准确率。 请完成以下问题: 1、建立模型说明语音识别技术的各个环节; 2、根据模型为手机运营商制定一个可行的用户操作规则; 3、根据制定的规则,以一个实际的例子验证语音识别模型,例如:查询话 费。 二、 问题分析 语音识别系统的结构 样本语言 预加重 加窗分帧 端点检测 建立 BP神经网络输入样本 特征提取 训练 BP神经网络 使用神经网络 识别结果 待测语音 预处理 特征提取 2 对于第一问,从图中的系统整体架构可以看到,建立基于BP 神经网络的语 音识别系统可分为两个阶段,即训练阶段和识别阶段。首先对原始语音进行预处 理。预处理包括预加重,加窗分帧和端点检测三个过程。系统的前端采用了端点 检测, 目的是在一段语音信号中确定起点和终点。而在特征提取部分,本系统采用 了MFCC 作为特征参数。从而有效区分 “流量”、“话费”、“套餐”和 “优惠”四 个音频 (wav 格式)文件。在训练阶段,通过说话人多次重复语音,本系统从原始 语音样本中去除冗余信息即去噪,提取说话人语音的特征参数并存储为BP 神经 网络的输入样本,在此基础上建立输入与输出的 BP 神经网络模型;在识别阶段, 待测语音经过预处理,使用已经训练好的 BP 神经网络进行识别得到结果,最后 由结果分析误差。 对于第二问,由第一问中建立出来的模型,根据“声学模型”和“语言模型”, 为该手机运营商制定出一份可行的用户使用手册。 第三问中,根据第二问中制定的用户使用规则,录制一段 “查询话费”的音 频文件,从而检验语音识别模型的正确性。 三、模型假设 3.1 录音时使用标准普通话,且录音过程没有断句和延时,录音环境安静; 3.2 每次发送的语音命令只包含一个查询业务,如 “话费”; 3.3 不考虑系统返回给用户的形式; 3.4 用户严格按照制定的规则查询,不能超过系统正常工作能力范围之内。 四、符号约定 e(i)——短时能量 m(i)——短时平均幅度 z 短时平均过零率 n —— LPC——线性预测参数 E(m)——短时能量 S(m)——分帧后的语音信号 F——频率 Mel——梅尔刻度

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档