- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度学习笔记2
DNN(深度神经网络) 1. 深度学习是以含有两个以上隐含层的神经网络对输入进行非线性变换或者表示学习的 技术。深度学习包括多种结构:MLP(多层神经网络),CNN(深度卷积神经网络),RNN(循环神经网络),LSTM(时间递归神经网络)。MCP神经元模型基础结构单元激活函数全连接层卷积层/反卷积层Pooling层Dropout层BN层RNN/LSTMSigmoid/TanhReLU/PReLU损失函数网络训练Softmax Loss欧式损失Sigmoid交叉时损失Triplet LossMoon LossContrastive LossBPAdaGrad / AdaDelta Min-batch SGDNAGLR PolicyRMSprop梯度消失问题梯度溢出问题全连接层 相当于內积运算,输出层的神经元和输入层的每个神经元都相连:得名“全”连接。 forWord运算:Backward运算:卷积层 2D卷积的数学形式: 离散卷积: Caffe实现: 如上图所示:input是一个3*4的矩阵,Kernol是一个2*2的矩阵,经过卷积之后得到的结果output是一个2*3的矩阵。即:input:M*N, Kernol: A*B, 则输出output: (M-A+1)*(N-B+1)。 多层卷积运算:如上图所示为一个多维矩阵的卷积运算,input为一个7*7*3的矩阵,但是本次计算选取局部为一个5*5*3的样本矩阵,将样本矩阵经过3*3*3的滤波器处理(卷积运算)得到最终输出output是一个3*3*1的矩阵。如上图所示,有两个滤波器对同一个样本进行处理,所以得到一个3*3*2的结果。 反卷积层:卷积的逆过程,实现图像的复原,实现上采样。Pooling(池化)层 一般配合卷积层使用,可以减少数据处理量,保持(局部特征)不变性;减小下一层输入大小,减小计算量和参数个数;获得定长输出,由于文本分类的时候输入是不定长的,可以通过池化获得定长输出;防止过拟合或可能会带来欠拟合。 如上图所示,有一个4*4的输入矩阵input,Kernel为一个2*2的矩阵。(input=N*kernel , N为正整数)。Max pooling获得的是Kernel矩阵覆盖区域的最大值,最后用作此次输出;mean pooling则是获得kernel矩阵覆盖区域的均值作为输出;概率矩阵是求取kernel矩阵覆盖区域每个元素在该区域内的概率大小,随机pooling则是在kernel覆盖区域随机取一个元素作为输出,具有不确定性。激活函数 激活函数,并不是要去激活什么, 而是指如何把“激活的神经元特征”通过函数把特征保留并映射出来,即:保留特征,去除一些数据中的冗余。线性模型的表达力不够,激活函数就用来加入非线性因素,而这就是神经网络用来解决非线性问题的关键。 Sigmoid函数: Tanh函数: ReLU函数: PReLU函数:在特征相差较大时,使用tanh激活函数,循环过程中会不断扩大特征效果显示出来;在特征相差较小时,使用sigmoid函数,能更细微的分类判断。 注:使用tanh或者sigmoid函数作为激活函数时,一定要注意对输入input进行归一化,否则激活后的值都会进入平坦区,使隐层的输出全部趋同,但是ReLU并不需要输入贵哦一花来防止它们达到饱和。Dropout Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了。dropout的意义是,由于随机的让一些节点不工作了,因此可以避免某些特征只在固定的组合下才生效,有意识的让网络去学习一些普遍的共性,而不是某些训练样本的一些特性。Dropout的随机意味着每次训练只训练了一部分,相当于训练了多个模型,实际使用时,采用了模型的平均作为输出。 加入随机参数u,p,对输入进行加权,防止过拟合。 (6)BN(Batch Normalization)层 逐层尺度归一,避免了梯度消失和梯度溢出;加速收敛5x~20x,同时作为一种正则化技术也提高了泛化能力。对每个神经元作归一化处理。 (7)RNN(循环神经网络) 如上图所示,x为输入,s为隐含神经元,o为输出神经元,U,V为需要学习的参数。上面展开图中,Ot的计算流程,看到隐藏层神经元st的输入包含了两个:来时xt的输入、来自st-1的输入。于是RNN,t时刻的计算公式如下: t时刻,隐藏层神经元的激活值为:t时刻,输出层的激活值为:CNN(卷积神经网络) 卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。 如上图:卷积神经网络的概念示范:输入图像通过和三个可训练的滤波器和
文档评论(0)