AI系列培训课件-人工智能技术及应用课件第11章.pptx

下载文档

0
0
约4.91千字
约 39页
2025-02-15 发布于江苏
举报
版权申诉
保障服务

AI系列培训课件-人工智能技术及应用课件第11章.pptx

1、本文档共39页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第11讲语音识别技术及其应用;

RL深度学习

nlp深度学习

CV深度学习;

语音识别基础;

01chrecognition;

1、从实验室环境到实际应用场景

语音识别最基本的定义是“电脑能听懂人类说话的语句或命令，而做出相应的工作“。50多年来，该技术渐渐开始改变我们的生活和工作方式，这种趋势的出现和下面几个关键领域的进步是分不开的。

·摩尔定律持续有效。有了多核处理器、通用计算图形处理器(GeneralPurposeGraphicalProcessingUnit,GPGPU)、CPU/GPU集群等技术，这使得训练更加强大而复杂的模型变得可能。

·借助越来越先进的互联网和云计算，我们得到了比先前多得多的数据资源。使用从真实场景收集的大数据进行模型训练，提高了系统的可应用性。

2、语音识别系统结构

语音识别系统的典型结构，语音识别系统主要由图中的四部分组成：信息处理和特征提取、声学模型(AM)、语言模型(LM)和解码有哪些信誉好的足球投注网站部分。;

2、语音识别系统结构

(1)语音特征抽取

原始模拟信号首先经录入器件转化为数字信号，声学特征提取部分负责从数字化后的

语音中提取声学特征信息。为保证识别准确率，该特征应该对声学模型的建模单元具有

较好的区分性。同时，为了能够高效的计算声学模型参数和进行解码识别，声学特征需

要在尽量保留语音中文本信息的前提下，抑制诸如说话人、信道、环境噪声等干扰信息，

并且维持一个适中的维度。提取良好的具有区分性的声学特征对提升语音识别系统的性

能至关重要。;

2、语音识别系统结构

(2)声学模型

关于声学模型，有两个主要问题，分别是特征向量序列的可变长和音频信号的丰富变

化性。可变化特征向量序列的问题在学术上通常由动态时间规整方法和隐马尔可夫模型

(HMM)方法来解决。音频信息的易变性是由说话人的各种复杂的特征(如性别、健康状况或

紧张程度)交织，或是说话风格与速度、环境噪声、周围人声、信道扭曲(如麦克风音的差

异)、方言差异、非母语口音引起的。一个成功的语音识别系统必须能够应付所有这类声音

的变化因素。;

2、语音识别系统结构

(3)语言学模型

语音识别系统的目的是把语音转换成文字。具体来说，是输入一段语音信号，要找一

个文字序列(由词或文字组成),使得它与语音信号的匹配程度最高。这个匹配程度一般是

用概率来表示。用学表示语音信号，表示文字序列，则要求解的是W=argmaxP(W|x)

w=agmw)(W=agmxP(xw)P(w);

2、语音识别系统结构

(3)解码

解码器(Decoder)是语音识别中的又一重要环节，为了能够识别出语音信息中所包含的文本信息，我们需要结合通过声学模型计算得到的语音特征声学概率和由语言模型计算出的语言模型概率，利用解码器通过相关有哪些信誉好的足球投注网站算法分析出最有可能性的词序列w*;;

PDA知晓移动设备上的信息，了解一些常识，

并记录了用户与系统的交互历史。有了这些

信息，PDA可以更好地服务用户。比如，可

以完成拨打电话、安排会议、回答问题和音

乐有哪些信誉好的足球投注网站等工作。;

基于深度学习的连续语音识别

Continuousspeechrecognitionbasedondeeplearning;

传统的GMM-HMM中，一般使用连续高斯混合模型刻画产生观察状态的概率密度函数。

GMM的许多优点使它很适合于在HMM的状态层面对输入数据建模。例如，在有足够多的混合

成分时，GMM能够拟合任何一种概率分布：GMM模型参数的计算可以被并行化，从而高效实

现训练。上图给出了利用GMM-HMM建模语音信号的示例，我们可以观测到语音信号中的特征

矢量，具体该某+观测特征矢量是由哪一个HMM状态产生的我们就无从知道，需要通过训练数据建模从而估计出观测值生成概率。;

(1)将声波分割成等长的语音帧，对每个语音帧提取特征(例如，梅尔频率倒谱系数)

(2)对每个语音帧的特征进行GMM训练，得到每个语音帧frame(o_i)属于每个状态的概率

…;

1、GMM-HMM模型

GMM-HMM在语音识别中应用的系统框图;

观测概率

不

v2-1DNN

特征帧窗口-V2

个

观测样本

在这个框架中，HMM用来描述语音信号的动态变化，而观察特征的概率则通过DNN来估计。

在给定声学观察特征的条件下，我们用DNN的每个输出节点来估计连续密度HMM的某个状态的

后验概率。除

您可能关注的文档

文档评论（0）

资料网上有哪些信誉好的足球投注网站整理 + 关注: 实名认证

服务提供商

资料网上有哪些信誉好的足球投注网站整理，资料网上有哪些信誉好的足球投注网站整理，资料网上有哪些信誉好的足球投注网站整理。

咨询作者（59人已咨询）已休息

1亿VIP精品文档

更多 >

AI系列培训课件-人工智能技术及应用课件第11章.pptx