- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
深度学习算法探索人工智能前沿
课程概述1课程目标掌握深度学习核心算法原理2学习内容从基础神经网络到前沿模型架构先修知识
什么是深度学习?定义机器学习子领域,基于深层神经网络模拟人脑学习过程与传统机器学习区别自动特征提取,无需人工设计特征深度学习优势处理非结构化数据能力强,可学习复杂模式
深度学习的发展历程11943年McCulloch和Pitts提出首个神经元数学模型21986年Hinton提出反向传播算法32012年AlexNet在ImageNet竞赛中取得突破42016-至今Transformer革命与大型语言模型兴起
神经网络基础生物神经元vs人工神经元树突→输入,细胞体→加权求和,轴突→输出激活函数引入非线性,使网络能学习复杂函数单层感知器最简单神经网络,仅能解决线性可分问题
多层感知器(MLP)结构输入层、隐藏层、输出层组成的前馈神经网络前向传播数据从输入层流向输出层,逐层计算反向传播误差从输出层反向传递,更新各层权重
激活函数详解Sigmoid输出范围0-1,早期常用,存在梯度消失问题Tanh输出范围-1到1,零中心化,仍有梯度问题ReLUmax(0,x),计算高效,解决梯度消失变体LeakyReLU、PReLU、ELU改进负值区间表现
损失函数均方误差(MSE)回归任务常用,计算预测值与真实值差的平方和交叉熵分类任务首选,衡量两个概率分布差异HingeLoss支持向量机中使用,最大化分类间隔
优化算法梯度下降法使用全部数据计算梯度,更新慢但稳定随机梯度下降每次仅用一个样本,更新快但波动大Mini-batch梯度下降折中方案,平衡计算效率与稳定性
高级优化算法1Momentum引入动量,加速收敛并克服局部最小值2AdaGrad自适应学习率,参数更新根据历史梯度调整3Adam结合动量和自适应学习率,目前最流行算法
过拟合问题定义模型训练表现好,泛化能力差1表现训练误差低,测试误差高2原因模型过于复杂,训练数据不足3解决方向正则化、数据增强、提前停止4
正则化技术L1正则化添加权重绝对值惩罚项,促进特征稀疏L2正则化添加权重平方惩罚项,防止权重过大Dropout训练时随机关闭部分神经元,防止共适应
批量归一化(BatchNormalization)原理标准化每层输入,缓解内部协变量偏移优点加速训练,允许更高学习率,减少初始化依赖实现在每个小批量上计算均值方差,进行归一化转换
卷积神经网络(CNN)概述1基本结构卷积层+池化层+全连接层的层级结构2与MLP区别局部连接和权重共享,空间结构敏感3适用场景图像识别、视频分析、语音处理等
CNN核心组件:卷积层1卷积操作滤波器在输入上滑动,计算点积2卷积核学习提取特定特征的权重矩阵3步长和填充控制输出大小和边界处理方式
CNN核心组件:池化层最大池化:取区域最大值,保留显著特征平均池化:计算区域平均值,平滑特征池化作用:降维、减少计算量、增加平移不变性
经典CNN架构1LeNet-5(1998)首个成功CNN,手写数字识别2AlexNet(2012)深度CNN突破,ImageNet冠军3VGGNet(2014)使用小卷积核和深度设计,结构规整
现代CNN架构ResNet残差连接解决深层网络退化问题Inception并行多尺度卷积,提高特征多样性DenseNet密集连接每层,强化特征重用
循环神经网络(RNN)概述基本结构包含循环连接,能处理序列数据适用场景文本、语音、时间序列等顺序数据与前馈网络区别有记忆能力,考虑历史信息
RNN的前向传播和反向传播时间展开将循环结构展开为链式结构处理BPTT算法沿时间反向传播误差,更新权重长序列训练时存在梯度消失或爆炸问题
长短期记忆网络(LSTM)1解决问题缓解梯度消失,捕获长期依赖2门控机制输入门、遗忘门、输出门控制信息流3细胞状态长期记忆通道,保存重要信息
门控循环单元(GRU)结构特点更新门和重置门,简化版LSTM与LSTM比较参数更少,训练更快,性能相当应用场景资源受限环境,数据量较小情况
序列到序列模型(Seq2Seq)编码器将输入序列编码为固定长度向量解码器将编码向量解码为目标序列应用机器翻译、文本摘要、对话系统BeamSearch解码时保留多个候选序列,提高质量
注意力机制Self-Attention序列内部元素相互关注1Multi-Head多个注意力头并行计算2优势捕获长距离依赖,并行计算3应用增强编解码器模型能力4
Transformer模型整体架构编码器-解码器结构,完全基于注意力机制位置编码添加位置信息,弥补序列顺序缺失优势与应用并行训练,处理长序列,NLP革命性进步
BERT模型预训练与微调大规模无监督预训练后针对任务微调双向编码同时考虑上下文,全面理解语义应用场景文本分类、问答系统、命名实体识别
GP
您可能关注的文档
- 《海关报关业务指南》课件.ppt
- 《海关报关实务与流程课件》.ppt
- 《海关报关实务课件级》课件.ppt
- 《海关申报子系统》教学课件.ppt
- 《海关申报技巧》课件.ppt
- 《海关申报流程》课件.ppt
- 《海关监管场所》课件.ppt
- 《海关进出口单证》课件.ppt
- 《海关通关》课件.ppt
- 《海关通关实务》课件.ppt
- DB3407_T 014-2023 市场监督管理所标准体系 构成和要求.docx
- DB3609_T 01-2024 燃油加油机计量监督检查规程.docx
- DB3406_T 010-2022 运输企业违法行为智能取证技术规范.docx
- DB36_T 1611-2022 红色旅游服务示范景区评定规范.docx
- DB36_T 1413.1-2021 中小学研学旅行 第1部分:基地(营地)认定规范.docx
- DB36_T 1412-2021 游乐园(场)大型游乐设施服务规范.docx
- 《GB/T 37133-2025电动汽车用高压连接系统》.pdf
- GB/T 37133-2025电动汽车用高压连接系统.pdf
- 中国国家标准 GB/T 37133-2025电动汽车用高压连接系统.pdf
- DB3403_T 04-2020 胶轮有轨电车交通系统施工及验收规范.docx
文档评论(0)