- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;一般情况下用于预训练的都是大模型,具备复杂网络结构,众多参数量,以及在足够大的数据集下进行训练而产生的模型。在自然语言处理领域,预训练模型往往是语言模型,其训练是无监督的,可以获得大规模语料。同时,语言模型又是许多典型自
然语言处理任务的基础,
如机器翻译、文本生成、
阅读理解等。
图5-1从语言模型嵌入;(1)在RNN(循环神经网络)模型中,每一个词嵌入的输出是要参考前面已经输入过的数据,所以叫做上下文化词嵌入。
(2)不止要考虑每个词嵌入前文,同时还要考
虑后文,所以再从句尾向句首训练。
(3)使用多层隐藏层后,最终的词嵌入=该词
所有层的词嵌入进行加权平均。;训练大语言模型需要数万亿的各类型数据。如何构造海量“高质量”数据对于大模型的训练至关重要。研究表明,预训练数据是影响大模型效果及样本泛化能力的关键因素之一。大模型采用的预训练数据需要覆盖尽可能多的领域、语言、文化和视角,通常来自网络、图书、论文、百科和社交媒体等。;OpenAI训练GPT-3使用的主要数据来源,包含经过过滤的CommonCravwl、WebText2、Books1、Books2及英文维基百科等数据集。通过词元方式对数据进行切分。为了保证模型使用更多高质量数据进行训练,在GPT-3训练时,根据数据来源的不同,设置不同的采样权重。
Meta公司研究人员在训练OPT模型时,采用了混合RoBERTa、Pile和PushShift.ioReddit数据的方法。;大模型预训练所需的数据来源大体上分为通用数据和专业数据两大类。
通用数据在大模型训练数据中占比非常高,主要包括网页、图书、新闻、对话文本等不同类型的数据,具有规模大、多样性和易获取等特点,因此支持大模型的语言建模和泛化能力。
专业数据包括多语言数据、科学文本数据、代码及领域特有资料等。虽然专业数据在大模型中所占比例通常较低,但是其对改进大模型在下游任务上的特定解决能力有着非常重要的作用。专业数据种类非常多,大模型使用的专业数据主要有三类,包括多语言数据、科学文本数据和代码。;
您可能关注的文档
- Python人工智能技术与应用课件:基于深度学习的自然语言处理技术应用.pptx
- 大语言模型通识微课课件:处理大模型预训练数据.pptx
- 大语言模型通识微课课件:大模型的构建流程.pptx
- 大语言模型通识微课课件:大模型的微调.pptx
- 大语言模型通识微课课件:大模型的应用场景.pptx
- 大语言模型通识微课课件:大模型评估体系与方法.pptx
- 大语言模型通识微课课件:大模型生成原理.pptx
- 大语言模型通识微课课件:大模型形成基础.pptx
- 大语言模型通识微课课件:大模型应用技术架构.pptx
- 大语言模型通识微课课件:分布式训练策略.pptx
- 甘肃省白银市会宁县第一中学2025届高三3月份第一次模拟考试化学试卷含解析.doc
- 2025届吉林市第一中学高考考前模拟生物试题含解析.doc
- 四川省三台县芦溪中学2025届高三下第一次测试生物试题含解析.doc
- 2025届江苏省启东市吕四中学高三适应性调研考试历史试题含解析.doc
- 浙江省宁波市十校2025届高三二诊模拟考试历史试卷含解析.doc
- 甘肃省甘南2025届高考生物必刷试卷含解析.doc
- 河北省石家庄市一中、唐山一中等“五个一”名校2025届高考历史四模试卷含解析.doc
- 江西省南昌市进贤一中2025届高考生物考前最后一卷预测卷含解析.doc
- 甘肃省白银市会宁县第四中学2025届高三第二次模拟考试历史试卷含解析.doc
- 宁夏银川市宁夏大学附属中学2025届高考化学押题试卷含解析.doc
文档评论(0)