- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
增量预训练(Pretrain)样本拼接篇
来自:AiGC面试宝典
宁静致远2024年01月27日20:47
•增量预训练(Pretrain)样本拼接篇
•一、Pretrain阶段,为什么需要拼接拼接?
•二、有哪些拼接方式?
•2.1拼接方式一:RandomConcatenate
•2.2拼接方式二:RandomConcatenate+NoiseMask
•2.3拼接方式三:RandomConcatenate+Cluster
•2.4拼接方式四:IN-CONTEXTPRETRAINING
•致谢
一、Pretrain阶段,为什么需要拼接拼接?
为了提高pretrain效率、拓展LLM最大长度,随机将若干条短文本进行拼接是pretrain阶段常见手
段。
二、有哪些拼接方式?
2.1拼接方式一:RandomConcatenate
随机将短文本{examples_i}拼接成{examples_k}以打满maxLen是pretrain的常见手段,该方法不
仅能够降低padding占比、提高训练效率,还能使LLM具备更好的长文本处理能力。
但笔者认为,绝大多数情况下构成Example的多个examples彼此互不相关,无法提供有效的上
下文信息,LLM自然也无法从拓宽的窗口中获得反馈。甚至,在语料较少、分布比较集中时,LLM
很有可能从多次、偶然的(因拼接导致的)噪音共现中拟合到错误的特征。当然,如果语料足够
多、分布足够广,LLM仍能通过足够的contrastive,逐渐聚焦于examples本身而非其他无关
examples。此外,也有一些使用specialToken对examples进行软隔离的方案,但没有额外的正
则手段时,使用specialToken进行隔离或许只是鸡生蛋、蛋生鸡的死循环。
2.2拼接方式二:RandomConcatenate+NoiseMask
为缓解2.1所述的无关examples间的噪音共现问题,笔者尝试过添加自定义attentionMask,使
LLM在pretrain时仅focuson当前example,经笔者测试,该方法在ICLfew-shot上相比2.1(也
即常规pretrain方法)有1.6%左右的提升。
defsegment_causal_mask(input_ids,device,val=float(-inf)):
bsz,tgt_len=input_ids.shape
cum_lens=torch.arange(1,tgt_len+1,device=device).unsqueeze(0)*\
torch.eq(input_ids,EosTokenId).int().to(device)
mask=torch.zeros([bsz,tgt_len,tgt_len]).to(device)
fori,_cum_lensinenumerate(cum_lens):
forvin_cum_lens:
mask[i,v:,:v]=val
returnmask
但这种方式仍存在一个问题,相对位置编码(如ALIBI、ROPE)的token-wise相对位置信息会在
attentionScore矩阵对应位置有所体现,如果施加了attentionMask,这部分相对位置信息经过
softmax会被完全掩盖/误杀,也即LLM无法在BP过程中,从跨examples间获得反馈(不论是相对
位置的反馈还是语义信息的反馈)。因此在不考虑外推性的前提下,这种pretrain方法仍是在短文
本窗口内进行训练,没有真正意义上实现maxLen级别的长文本训练,只能起到提高训练效率的作
用。
另外,尽管2.1中没有利用attentionMask,LLM是否能从无关examples构成的窗口中获取对(更
远)相对位置的正向反馈仍然存疑(如果数据构成表
您可能关注的文档
- 大模型面试题-5-transformers 操作篇.pdf
- 大模型面试题-4-Attention 升级面.pdf
- 大模型面试题-3-LLMs 激活函数篇.pdf
- 大模型面试题-2-Layer normalization 篇.pdf
- 大模型面试题-1-大模型(LLMs)基础面.pdf
- 大模型面试题-43-显存优化策略篇.pdf
- 大模型面试题-42-大模型(LLMs)显存问题面.pdf
- 大模型面试题-41-大模型(LLMs)LLM生成SFT数据方法面.pdf
- 大模型面试题-40-大模型(LLMs)训练集面.pdf
- 大模型面试题-39-强化学习在自然语言处理下的应用篇.pdf
- Unit7CareersLesson2CareerSkills课件高中英语北师大版选择性3.pptx
- 四川省广安第二中学高三下学期二模物理试卷.docx
- Module2Unit1ShelearntEnglish(课件)英语五年级下册3.pptx
- Unit2ie(课件)牛津英语自然拼读世界第三级 4.pptx
- Unit4Whenistheartshow_PBReadandwritetwonewkittens(课件)人教PEP版英语五年级下册 2.pptx
- Unit2WildlifeProtectionListeningandTalking课件高中英语人教版.pptx
- 黑龙江省大庆实验中学高三得分训练(二)文科综合试题.docx
- 第11课《山地回忆》教学设计-统编版语文七年级下册(1).docx
- 《和田的维吾尔》2教学文案.ppt
- 7.1力课件教科版物理八年级下册【05】.pptx
文档评论(0)