网站大量收购独家精品文档,联系QQ:2885784924

配套课件 Python+Tensorflow机器学习实战.ppt

  1. 1、本文档共211页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
10.5.3 看图说话模型的训练 完成了看图说话模型主要网络结构的定义,使用该模型对COCO数据集进行训练。 10.5.4 评估模型 使用训练好的模型对图片进行分析,给出对应的描述。 10.5 看图说话 0) a woman is standing next to a horse . (p=0.000759) 1) a woman is standing next to a horse (p=0.000647) 2) a woman is standing next to a brown horse . (p=0.000384) 第11章 人脸识别 11.1 人脸识别简介 11.2 人脸比对 11.3 性别识别 人脸识别是基于人的脸部特征信息进行身份识别的一种识别技术,主要针对图像或者视频中的人脸进行处理的技术。 人脸识别技术包括了图像检测人脸、人脸图像特征提取、人脸匹配与识别,甚至包括对性别、年龄等信息的识别。 现在,基于海量数据的机器学习是人脸识别的主要技术路线,整体的技术范围主要包括: 人脸图像采集 人脸检测 人脸图像预处理 人脸关键点检测 人脸验证 人脸属性检测 11.1 人脸识别简介 11.1.1 人脸图像采集 对人们在不同位置、不同表情、不同角度扥情况下的人脸图像的收集。 11.1.2 人脸检测 人脸检测(Face Detection):目标检测的一种,是检测出图像中人脸所在位置的一项技术。 11.1.3 人脸图像预处理 由于在人脸检测的结果中,可能获取了尺寸不易、光线明暗不一、干扰不一等不同情况下的多个人脸图像。在进行后续的关键点检测等任务时,需要对这些图像进行缩放、旋转、拉伸、光线补偿、灰度变换、锐化等图像预处理。 11.1 人脸识别简介 11.1.4 人脸关键点检测 人脸关键点检测是定位出人脸上五官关键点坐标的一项技术,包括人脸轮廓、眼睛、眉毛、嘴唇以及鼻子的轮廓等关键点坐标的技术。 五官关键点的数量是预先设定好的一个固定数值,可以根据不同的语义来定义,常见的有5点、68点、90点等。 目前,在人脸关键点检测上,使用的深度学习算法主要是级联形状回(cascaded shape regression,CSR)。 11.1 人脸识别简介 11.1.5 人脸特征提取 人脸特征提取是将一张人脸图像以及人脸关键点转化为一串固定长度的数值的过程,该数值串就是人脸特征。近几年来,人脸提特征算法一般都采用深度学习方法。 DeepID网络结构是常用的一种。 11.1 人脸识别简介 11.1.6 人脸比对 人脸比对算法的输入是两个人脸特征输出是两个特征之间的相似度。基于人脸比对可衍生出多种应用场景: 人脸验证(Face Verification):指分析两种图片中的人脸是否属于同一个人的可能性大小。 人脸识别(Face Recognition):识别出输入人脸图对应身份的算法。 人脸检索(Face Retrieval):查找和输入人脸相似的人脸序列的算法。 人脸聚类(Face Cluster):将一个集合内的人脸根据身份进行分组的算法 11.1 人脸识别简介 9.1.2 语音合成模型 语音合成模型从功能步骤可以分为两步:一是文本处理,二是语言合成。 1、文本处理 把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。 2、语言合成 依据音素序列来生成语音。在生成语言的过程中,主要有三类方法: 拼接法:从事先录制的大量语音中,选择所需的基本单位拼接而成 参数法:根据统计模型来产生每时每刻的语音参数,主要是基频、共振峰频率等。然后把这些参数通过声码器(vocoder)生成波形。 基于波形的统计合成系统:采用神经网络算法直接预测合成语音波形的每一个采样点。 9.1 语音处理简介 对于语音识别的目标就是听懂人员语言,最基础的一类语言就是数字。在本节中,我们将创建一个简单的英文数字识别器。 9.2.1 数据预处理 在训练数据集上,我们选择spoken_numbers_pcm数据集。该数据集是许多人阅读0~9这十个数字英文的音频,分男声和女声。 对于数据的预处理主要是对音频文件的声学特征的提取,采用最常用的梅尔频率倒谱系数(MFCC)方法 9.2 听懂数字 mfcc = librosa.feature.mfcc(wave, sr) #获取MFCC mfcc=np.pad(mfcc,((0,0),(0,80-len(mfcc[0]))), mode=constant, constant_values=0) 9.2.2 构建识别模型 由于输入数据只是某一个数字的读音,

文档评论(0)

pehalf + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7201060146000004

1亿VIP精品文档

相关文档