- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《识别语音的几种依据
本文来自:CTI论坛: 呼叫中心 统一通信 融合通信专业资讯网(/) 识别语音的几种依据
清华大学 刘加 2006/07/31
语音识别技术就是通过机器识别和理解过程把语音信号转变为相应的文本或命令; 说话人识别技术就是让机器通过你的声音纹路确定你的身份; 语种识别技术就是让机器识别你所说的语言的种类,如是英语还是汉语等。
近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。专家预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
由于朗读方式的连续语音和通常自然口语化语音(Spontaneous)发音方式有很大的不同,电话语音通常包含更多的环境噪声、信道噪声和语音失真,因此如何有效提高自然口语化语音电话语音和广播语音识别性能是目前重要挑战。目前语音识别技术研究开始重点向电话语音和广播语音识别研究方向发展。利用目前已经比较成熟的技术,开发针对各种应用的语音识别产品,包括语音专用芯片、嵌入式语音识别系统、口语对话系统、声纹识别系统等,也是目前语音技术领域的热点之一。
语音识别整体模型
大词汇量连续语音识别系统的研究主要集中在声学模型和语言模型两个方面。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性、动态性、瞬时性和连续性等。语音识别和理解是一项非常困难的任务,必须建立在从声学、语音学到语言学的知识为基础的语音处理机制上,才有可能获得高性能的自动语音识别系统。目前主流的语音识别的理论是基于统计模式识别原理。语音识别系统通常假设语音信号是由一系列编码组成。输入的语音波形首先被转换为一组离散的参数矢量。通常用O=o1,o2,∧,or表示语音发声一组待识别的特征参数矢量(观察矢量),其中每个矢量时间间隔典型取值为10ms~20ms。识别器的作用是把输入的语音特征矢量映射为潜在的文字序列。
语音识别的整体模型就是要把可利用的语音学和语言学信息用一个统一的模型来进行描述,以得到尽可能正确的句子识别。假设一句语音可以由字串W=w1,w2,∧,wr组成,识别系统要完成的任务是在给定观察矢量情况下,寻找最大可能(概率最大)的字串W。汉语和西方语言识别系统不同的地方在于汉语中的同音字和同音词比较多,汉语语音识别系统必须包含音字转换的过程。
建立语音识别模型的任务就是要把检测到的声学层语音信息通过适当的数学公式将识别结果W与O的关系表示出来。目前被认为最有效的语音识别模型就是基于统计的隐含马尔可夫模型。根据统计模式识别理论,在已知特征O的条件下,选择可以利用各种信息使后验概率最大。具有最大后验概率的结果为系统最可能的识别结果。
语音识别整体模型反映了实际中语音识别系统要解决的四个具有挑战的问题。首先,一个稳健的特征参数提取算法是必须的,并且该参数能很好地适用于语音的声学层模型。第二,必须根据不同语言的发音特点,建立具有很好鉴别力的声学层模型。模型参数必须能够从并不充分的语音数据中训练出来,并表现出稳健性。第三,必须建立一个语言模型,根据前面的历史语言模型能够指导向前有哪些信誉好的足球投注网站的过程。完善的语言模型还必须包含处理新词的能力,并且尽可能做到和文本的内容无关。第四,由于词汇数量是巨大的,一个实用系统必须有适合声学模型和语言模型的剪枝算法。
语音识别特征
选取语音的识别特征参数是语音识别系统中非常重要的一个方面。选取的特征应该对发音模板有较大的区分度和抗噪声性能。语音信号可以看成是准平稳的随机过程。在10~25ms的时间范围内语音信号可以被认为是平稳的,因此可以分帧对语音信号进行分析。对语音识别系统,典型帧长取值为25ms,帧移为10ms。汉明窗(Hamming)通常在分析中使用以提高分析准确性。预加重滤波器通常被用于补偿由于嘴唇辐射引起的高频频谱的衰减。
目前比较有效识别参数为Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients MFCC)。MFCC参数都符合人耳的听觉特性,在有信道噪声和频谱失真情况下,该参数表现的比较稳健。由线性预测系数(Linear Prediction LP)导出倒谱系数也是一种常用的语音识别参数,在安静的环境下,线性预测倒谱系数和MFCC系数的性能相差不多。近来研究表明用感觉加权的线性预测(Perceptually Weighted Linear Prediction Cepstral Coefficients PLPCC)倒谱系数能有更好的识别稳健性。
在语音信号特征提取过程中,通常做一个不精确的假设,即不同帧间的语音是不相关的,由于人发音的物理条件限制,不同帧间语音必须是相关的,变化是连续的。可以用
您可能关注的文档
最近下载
- 科技英语语法(西安电子科技大学)中国大学MOOC 慕课 章节测验 期末考试 客观题答案.docx
- 电梯工程制图 课件 项目六 识读电梯土建布置图.pptx
- 有趣的水-PPT完整版.ppt
- 促织课件1.ppt VIP
- 档案管理员试题[最终版].pdf VIP
- §7.1月饼的生产概述.doc VIP
- 2024年新人教版七年级上册数学教学课件 4.1 整式 第1课时 单项式.pptx
- 江苏 2023年专升本考试:专升本《政治》历年真题汇编(共85题).doc VIP
- 人教版高中政治-必修四哲学与生活-课件-9.1矛盾是事物发展的源泉和动力3.ppt
- 毕业论文·设计《发电柴油机排烟温度过高故障判断与消除》.docx VIP
文档评论(0)