大语言模型通识微课课件:大模型的微调.pptx

大语言模型通识微课课件:大模型的微调.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;有监督微调,又称指令微调,是指在已经训练好的语言模型的基础上,通过使用有标注的特定任务数据做进一步的微调,使模型具备遵循指令的能力。

通常,要对大模型进行微调,有以下一些原因:

(1)因为大模型的参数量非常大,训练成本非常高,每家公司都去从头训练一个自己的大模型,这个事情的性价比非常低;

(2)提示工程是一种相对来说比较容易上手的使用大模型的方式,通常大模型的实现都会对输入序列长度有限制,而提示工程会把提示搞得很长。提示越长,大模型的推理成本就越高。相对来说微调是更优方案。;(3)提示工程的效果如果达不到要求,企业又有比较好的自有数据,能够更好的提升大模型在特定领域的能力。这时候微调就非常适用。

(4)要在个性化的服务中使用大模型的能力,这时候针对每个用户的数据,训练一个轻量级的微调模型是个不错的方案。

(5)数据安全。如果数据不能传递给第三方大模型服务,那么搭建自己的大模型就非常必要。通常这些开源的大模型都需要用自有数据进行微调,才能够满足自身业务的需求。;微调的最终目的,是在可控成本的前提下,尽可能地提升大模型在特定领域的能力。从成本和效果的角度综合考虑,PEFT(参数高效微调)是比较流行的微调方案。;从参数规模的角度,大模型的微调技术路线分成两条。

(1)对全量参数进行训练,这条路径叫全量微调(FFT),是用特定的数据对大模型进行训练,这在特定数据领域的表现会好很多。

但FFT训练成本高;另外存在灾难性遗忘,用特定训练数据进行微调可能会表现变好,但也可能会把原来表现好的别的领域的能力变差。

(2)只对部分参数进行训练,这条路径叫参数高效微调(PEFT)。PEFT主要想解决的是FFT存在的两个主要问题,是比较主流的微调方案。;从训练数据来源以及训练方法看,大模型微调有以下几条技术路线:

(1)监督式微调,用人工标注的数据,通过传统机器学习中监督学习的方法,对大模型进行微调;

(2)基于人类反馈的强化学习微调,把人类反馈通过强化学习方式引入对大模型的微调中去,让大模型生成的结果更符合人类的期望;

??3)基于人工智能反馈的强化学习微调,这是想解决反馈系统的效率问题,因为收集人类反馈相对来说成本会比较高、效率比较低。

不同的分类角度只是侧重点不一样,可以多个方案并举。;提示微调的出发点是基础模型的参数不变,为每个特定任务,训练一个少量参数的小模型,在具体执行特定任务的时候按需调用。其基本原理是在输入序列X之前,增加一些特定长度的特殊词元,以增大生成期望序列的概率。具体是在Transformer模型的嵌入环节。将大模型比做一个函数,提示微调是在保证函数本身不变的前提下,在X前面加上一些特定的内容,而这些内容可以影响X生成期望中Y的概率。;前缀微调的灵感来源是提示工程的实践,在不改变大模型的前提下,在提示的上下文中添加适当的条件,引导大模型有更加出色的表现。

前缀微调的出发点跟提示微调是类似的,只不过在具体实现上有一些差异。提示微调是在嵌入环节,而前缀微调是在Transformer的编码器和解码器网络中都加了一些特定的前缀,它也保证基座模型本身没有变,只是在推理过程中,按需要在前面拼接一些参数。;LoRA方法走了另一条技术路线,可以媲美全量微调的效果。LoRA有一个假设:现在看到的这些大模型都是被过度参数化的,其背后有一个低维的本质模型。通俗地说,大模型参数很多,但并不是所有的参数都发挥同样作用。大模型的部分参数是影响生成结果的关键,这就是低维的本质模型。

LoRA的基本思路是:首先,适配特定的下游任务,训练一个特定的模型,里面主要是微调要得到的结果;其次进行低维分解;接着用特定训练数据训练。用LoRA适配不同的场景切换也非常方便,做简单的矩阵加法即可。;量化是一种在保证模型效果基本不降低的前提下,通过降低参数的精度,来减少模型对于计算资源的需求的方法,其核心目标是降成本,降训练成本,特别是降后期的推理成本。

QLoRA就是量化版的LoRA,它是在LoRA的基础上进行进一步的量化,将原本用16bit表示的参数,降为用4bit来表示,可以在保证模型效果的同时,极大地降低成本。;

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档