大模型能力技术培训.pptxVIP

下载本文档

6
0
约5.8万字
约 205页
2025-04-25 发布于云南
举报
版权申诉

大模型能力技术培训.pptx

1、本文档共205页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大模型能力技术培训

让数据智能像水电样简单

语言模型发展历程

•上世纪90年代：语言模型出现，统计学方法，使用前面的词预测下一个词

•2003年：Bengio《ANeuralProbabilisticLanguageModel》，首度将深度学习思想融入语言模型

•2018年：Google提出Transformer神经网络架构，并通过大量文本训练理解语言规则和模式

大语言模型：包含百亿或更多参数的语言模型

•国外：GPT-3（175B）、GPT-4、PaLM（540B）、Galactica和LLaMA等

•国内：ChatGLM、文心一言、通义千问、讯飞星火等

•大语言模型和小语言模型（如GPT2）采用相似的架构和预训练任务，但是能力截然不同（涌现能力）

•涌现能力使得大语言模型只使用很少的样本就可以处理全新的任务

参考文献：/abs/2303.18223

对技术领域的影响

•自然语言处理：理解和生成文本，意图理解、写文章、回答问题、翻译等等

•信息检索：智能检索，改进有哪些信誉好的足球投注网站引擎

•计算机视觉：文生图、多模态交互

对商业领域的影响

•AIAgent：数字人、个人智能助理、情感分析师、口语陪练、智能运营助手，等等

•通用人工智能AGI：大语言模型是AGI的早期形式，引发了对未来人工智能发展的思考和规划

参考文献：/abs/2303.18223

涌现能力

•上下文学习的能力：GPT3首次引入，instruction+fewshotlearning，无需额外训练和参数更新

•指令遵循：可以使用指令进行微调，在同样使用指令形式化描述的未见过的任务上表现良好

•逐步推理：“思维链”推理策略，可以利用包含中间推理步骤的提示机制来解决复杂推理任务

作为基座模型支持多元应用的能力

•全新的AI范式，借助于海量无标注数据的训练，获得可以适用于大量下游任务的统一大模型

•可以缩短每个具体应用的开发周期，人力投入，也可以基于大模型的推理、常识和写作能力，获得更好的应用效果

支持对话作为统一入口的能力

•ConversationasaPlatform（陆奇，2016），以对话形态完成各种各样的任务

参考文献：/1389978604/248392718

•巨大的规模：十亿到万亿，能够捕捉更多的语言知识和复杂的语法结构

•预训练和微调：先用无标签数据在大规模文本上预训练，再用有标签数据微调特殊任务

•上下文感知：能够理解和生成依赖于前文的文本内容。在对话、文章生成和情境理解方面表现出色

•多语言支持：可以构建跨文言和跨文化的应用

•多模态支持：文本、图像、语音

•涌现能力：能用更少的数据处理更复杂的任务

•多领域应用：文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等等

•伦理和风险问题：生成有害内容、隐私问题、认知偏差等，这是需要重点解决的问题

•幻象、资源消耗、推理速度

参考文献：/abs/2303.18223

语言模型（LanguageModel，LM）目标是建模自然语言的概率分布

词汇表V上的语言模型由函数P(w1w2...wm)表示，表示词序列w1w2...wm作为一个句子出现的可能性大小。对于任意词串w1w2...wm∈V+，则有P(w1w2...wm)=0，并且对于所有词串，函数P(w1w2...wm)满足归一化条件：

由于联合概率P(w1w2...wm)的参数量十分巨大，直接计算P(w1w2...wm)非常困难。如果把w1w2...wm看作一个变量，那么它具有|V|m种可能。

按照《现代汉语词典（第七版）》包含7万词条，句子长度按照20个词计算，模型参数量达到7.9792*1096的天文数字。

由此，w1w2...wm的生成过程可以看作单词逐个生成的过程。首先生成w1，之后根据w1生成w2，再根

据w1和w2生成w3，以此类推，根据前m−1个单词生成最后一个单词wm

为了减少P(w1w2...wm)模型参数量，可以利用句子序列通常情况下从左至右的生成过程进行分解，使用

链式法则得到：

其中，词wi出现的概率受它前面的i−1

您可能关注的文档

文档评论（0）

邵宗其 + 关注: 实名认证

文档贡献者

信息系统项目管理师持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2024年07月25日上传了信息系统项目管理师

1亿VIP精品文档

更多 >

大模型能力技术培训.pptxVIP