- 1、本文档共112页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大模型训练与优化计算机科学与技术学院智周万物?道济天下
o训练数据准备l数据获取l数据预处理l数据增强l数据配比与课程设置l开源数据集o并行化与分布式训练l大模型训练的挑战l并行化策略l节点间数据通信l分布式训练框架 目录o模型压缩l量化l剪枝l知识蒸馏o华为昇腾芯片
o数据获取:l收集类别丰富的样本l筛选高质量的样本o数据增强:l扩充数据规模l提高数据多样性o训练数据配比和课程设置:l确定数据的比例l编排数据使用顺序大模型展现出卓越性能的一个关键原因:海量的高质量训练数据 训练数据准备文本图像点云
o训练数据准备l数据获取l数据预处理l数据增强l数据配比与课程设置l开源数据集o并行化与分布式训练l大模型训练的挑战l并行化策略l节点间数据通信l分布式训练框架 目录o模型压缩l量化l剪枝l知识蒸馏o华为昇腾芯片
o通用文本:l来源:包括在线论坛、社交媒体、新闻、博客、书籍、期刊等l主题:涵盖社会、科技、娱乐、健康等l表达:囊括不同人群、地区和文化背景的表达方式o三个主要来源: 训练数据准备—数据获取1.文本数据来源网页数据新闻文章博客百科数据社交媒体对话数据电子邮件对话论坛帖子社交媒体对话书籍数据社会人文类历史类科技类小说数据量大内容丰富理解对话逻辑表达规范长文本理解
o专业文本:l数据占比较低l包含大量专业术语以及特定的语法句式o常见的专业文本数据: 训练数据准备—数据获取1.文本数据来源科学文本数据学术论文技术报告教材行业专业文本法律法规合同工程文档代码文本开源代码仓库编程竞赛和挑战平台开发者社区论坛赋予模型理解科学问题的能力注重实际应用、业务操作和解决特定问题的需求具有特定的语法规则及准确的执行逻辑
o通用图像数据:l涵盖了人类日常生活中的各种场景l从互联网收集得到;各种常规的便携设备,如手机、平板电脑、相机等拍摄获取l比文本的信息更加密集,包含丰富的视觉特征,如颜色、纹理、形状等o确保数据多样性需要考虑:l天气条件:收集图像时考虑不同的天气条件,包括晴天、阴天、雨天、雪天等l时间变化:收集一天不同时间段下拍摄的图像,这能够捕捉到光照、阴影等方面的变化l人群多样性:确保图像中包含不同人群的照片,考虑年龄、性别、种族等因素l物体类别:涵盖多个物体类别,包括不同的动植物、建筑物、交通工具等l场景多样性:需要包括常见的室内及室外场景,如办公室、卧室、城市街景l文化多样性:考虑在不同社会环境中收集图像,涵盖不同文化、习惯和社交活动 训练数据准备—数据获取2.图像数据来源
o专业图像数据:l针对特定领域或专业需求采集的图像数据l使用专业设备或者在特定场景下采集l例如,通过X光机、CT扫描获得医学图像;l通过卫星或航空器获取的地球表面的遥感图像;l工业生产线上拍摄得到的产品缺陷检测图像; 训练数据准备—数据获取2.图像数据来源
o常见的三维数据表示形式有:点云、三角网格、体素、隐式表达o点云定义:l三维点的数据集合o属性:l三维坐标l强度l颜色o采集设备:l激光扫描仪、深度相机、双目相机、光学相机多视角重建、结构光设备 训练数据准备—数据获取3.点云数据来源
o训练数据准备l数据获取l数据预处理l数据增强l数据配比与课程设置l开源数据集o并行化与分布式训练l大模型训练的挑战l并行化策略l节点间数据通信l分布式训练框架 目录o模型压缩l量化l剪枝l知识蒸馏o华为昇腾芯片
o低质去除:l目标:去除那些质量较差,以及不符合标准的文本数据l基于分类器的方法:使用一组精选的文本(包括维基百科、书籍等),训练一个分类器用于判断文本的质量,将与训练数据类似的数据给定较高的分数。利用该分类器评估数据的内容质量l基于启发式的方法:自定义规则,对数据进行筛选例如:去除单词数量少于50个或者大于100000个的文档去除符号与单词的比例大于0.1的文件 训练数据准备—数据预处理1.文本数据预处理低质去除冗余去除隐私去除词元划分
o冗余去除:l目标:去除文本数据中的冗余信息,精简数据集,防止模型在预测时陷入重复循环l句子级别:构建过滤方法,识别重复句子例如,提取并过滤文档间超过一定长度的相同字符串(公共子串匹配)l段落或者文档级别:基于文本之间的特征相似度来进行冗余去除例如,计算两个段落或者文档之间的13-gram的Jaccard相似度来判断它们是否重复 训练数据准备—数据预处理1.文本数据预处理低质去除冗余去除隐私去除词元划分补充知识:N-gram是一种文本特征表示方法,它将文本分解为连续的n个单词或字符序列。常用的是基于
您可能关注的文档
- 大模型原理与技术-课件 chap1 绪 论.pptx
- 大模型原理与技术-课件 chap2 深度学习基础.pptx
- 大模型原理与技术-课件 chap3 自然语言处理.pptx
- 大模型原理与技术-课件 chap4 大模型网络结构.pptx
- 大模型原理与技术-课件 chap6 大模型微调.pptx
- 大模型原理与技术-课件 chap7 大模型提示工程.pptx
- 大模型原理与技术-课件 chap8 高效大模型策略.pptx
- 大模型原理与技术-课件 chap9 单模态通用大模型.pptx
- 大模型原理与技术-课件 chap10 多模态通用大模型.pptx
- 大模型原理与技术-课件 chap11 大模型评测.pptx
文档评论(0)