机器学习之人工神经网络.pptVIP

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
隐层单元个数的确定 较少的隐层单元可防止网络过度拟合数据 应用交叉验证方法确定隐层单元数 error on training data on test data 0 # hidden units 举例:人脸识别 训练样例 20个不同人的摄影图像 每个人大约32张图像 不同的表情 快乐、沮丧、愤怒、中性 不同的方向 左、右、正前、上 不同的穿戴 是否带眼镜 共624幅灰度图像 分辨率为120×128,每个像素使用0(黑)到255(白)的灰度值描述 任务:学习图像中人脸的朝向 共搜集624幅灰度图像,训练了240幅图像样例后,独立测试集合的精度达90%,20个不同的人 人脸识别——设计要素 输入编码 ANN的输入必然是图像的某种表示,那么设计的关键是如何编码这幅图像 例如,可以对图像进行预处理,分解出边缘、亮度一致的区域或其他局部图像特征,然后把这些特征输入网络,问题是导致每幅图像有不同数量的特征参数,而ANN具有固定数量的输入单元 把图像编码成固定的30×32像素的亮度值,每个像素对应一个网络输入,把范围是0到255的亮度值按比例线性缩放到0到1的区间内,以使网络输入和隐层单元、输出单元在同样的区间取值。 人脸识别——设计要素(2) 输出编码 ANN必须输出4个值中的一个来表示输入图像中人脸的朝向 可以使用单一的输出单元来编码这4种情况 这里使用4个不同的输出单元,每一个对应4种可能朝向中的一种,取具有最高值的输出作为网络的预测值。称为1-of-n输出编码 选择1-of-n的原因 为网络表示目标函数提供了更大的自由度 最高值输出和次高值输出间的差异可以作为对网络预测的置信度 人脸识别——设计要素(3) 输出单元的目标值 一个显而易见的方法,1,0,0,0... 这里使用的方法,0.9,0.1,0.1,0.1... 避免使用0和1作为目标值的原因 sigmoid单元对于有限权值不能产生这样的输出 如果企图训练网络来准确匹配目标值0和1,梯度下降将会迫使权值无限增长 0.1和0.9是sigmoid单元在有限权值情况下可以完成的 人脸识别——设计要素(4) 网络结构图 网络包含多少个单元以及如何互连? 最普遍的结构是分层网络,一层的每个单元向前连接到下一层的每一个单元 目前采用了包含两层sigmoid单元的标准结构 隐藏单元的数量 3个,达到90%的精度,训练时间约5分钟 30个,提高1~2个百分点,训练时间约1个小时 实践发现,需要某个最小数量的隐藏单元来精确地学习目标函数,并且超过这个数量的多余的隐藏单元不会显著地提高泛化精度 如果没有使用交叉验证,那么增加隐藏单元数量经常会增加过度拟合训练数据的倾向,从而降低泛化精度 人脸识别——设计要素(5) 学习算法的其他参数 学习速率设定为0.3,冲量设定为0.3 太小会产生大体相当的泛化精度,但需要更长的训练时间 太大,训练将不能收敛到一个具有可接受误差的网络 使用完全的梯度下降 输出单元的权值被初始化为小的随机值 输入单元的权值被初始化为0 训练的迭代次数的选择可以通过分割可用的数据为训练集合和验证集合来实现 最终选择的网络是对验证集合精度最高的网络 最终报告的精度是在没有对训练产生任何影响的第三个集合——测试集合上测量得到的 学习到的隐藏层表示 图中紧挨人脸图像下的4个矩形,每个矩形描绘了网络中4个输出单元中的一个权值,每个矩形中的4个小方形表示和这个输出单元关联的4个权值 隐藏单元的权值显示在输出单元的下边,每个隐藏单元接受所有30×32个像素输入。与这些输入关联的30×32个权值被显示在它们对应的像素的位置 针对每一个训练样例,梯度下降迭代100次后的网络权值显示在图的下部。 其它可选的误差函数 为权值增加一个惩罚项 把一个随着权向量幅度增长的项加入到E中,这导致梯度下降搜寻较小的权值向量,从而减小过度拟合的风险,等价于使用权衰减策略 对误差增加一项目标函数的斜率或导数 某些情况下,训练信息中不仅有目标值,而且还有关于目标函数的导数 其它可选的误差函数(2) 使网络对目标值的交叉熵最小化 比如根据借贷申请者的年龄和存款余额,预测他是否会还贷,目标函数最好以申请者还贷的概率的形式输出,而不是输出明确的0和1。在这种情况下,可以证明最小化交叉熵的网络可以给出最好的概率估计。交叉熵定义如下: 第6章讨论了何时及为什么最可能的网络假设就是使交叉熵最小化的假设,并推导了相应的sigmoid单元的梯度下降权值调整法则,还描述了在什么条件下最可能的假设就是使误差平方和最小化的假设。 其他可选的误差函数(3) 通过权值共享改变有效误差函数 把与不同单元或输入相关联的权“捆绑在一起”,强迫不同的网络权值取一致的值,通常是为了实施人类设计者事先知道的某个约束 约束了假设的

文档评论(0)

celkhn5460 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档