大模型能力技术培训.pptxVIP

  1. 1、本文档共205页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大模型能力技术培训

让数据智能像水电样简单

语言模型发展历程

•上世纪90年代:语言模型出现,统计学方法,使用前面的词预测下一个词

•2003年:Bengio《ANeuralProbabilisticLanguageModel》,首度将深度学习思想融入语言模型

•2018年:Google提出Transformer神经网络架构,并通过大量文本训练理解语言规则和模式

大语言模型:包含百亿或更多参数的语言模型

•国外:GPT-3(175B)、GPT-4、PaLM(540B)、Galactica和LLaMA等

•国内:ChatGLM、文心一言、通义千问、讯飞星火等

•大语言模型和小语言模型(如GPT2)采用相似的架构和预训练任务,但是能力截然不同(涌现能力)

•涌现能力使得大语言模型只使用很少的样本就可以处理全新的任务

参考文献:/abs/2303.18223

对技术领域的影响

•自然语言处理:理解和生成文本,意图理解、写文章、回答问题、翻译等等

•信息检索:智能检索,改进有哪些信誉好的足球投注网站引擎

•计算机视觉:文生图、多模态交互

对商业领域的影响

•AIAgent:数字人、个人智能助理、情感分析师、口语陪练、智能运营助手,等等

•通用人工智能AGI:大语言模型是AGI的早期形式,引发了对未来人工智能发展的思考和规划

参考文献:/abs/2303.18223

涌现能力

•上下文学习的能力:GPT3首次引入,instruction+fewshotlearning,无需额外训练和参数更新

•指令遵循:可以使用指令进行微调,在同样使用指令形式化描述的未见过的任务上表现良好

•逐步推理:“思维链”推理策略,可以利用包含中间推理步骤的提示机制来解决复杂推理任务

作为基座模型支持多元应用的能力

•全新的AI范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的统一大模型

•可以缩短每个具体应用的开发周期,人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果

支持对话作为统一入口的能力

•ConversationasaPlatform(陆奇,2016),以对话形态完成各种各样的任务

参考文献:/1389978604/248392718

•巨大的规模:十亿到万亿,能够捕捉更多的语言知识和复杂的语法结构

•预训练和微调:先用无标签数据在大规模文本上预训练,再用有标签数据微调特殊任务

•上下文感知:能够理解和生成依赖于前文的文本内容。在对话、文章生成和情境理解方面表现出色

•多语言支持:可以构建跨文言和跨文化的应用

•多模态支持:文本、图像、语音

•涌现能力:能用更少的数据处理更复杂的任务

•多领域应用:文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等等

•伦理和风险问题:生成有害内容、隐私问题、认知偏差等,这是需要重点解决的问题

•幻象、资源消耗、推理速度

参考文献:/abs/2303.18223

语言模型(LanguageModel,LM)目标是建模自然语言的概率分布

词汇表V上的语言模型由函数P(w1w2...wm)表示,表示词序列w1w2...wm作为一个句子出现的可能性大小。对于任意词串w1w2...wm∈V+,则有P(w1w2...wm)=0,并且对于所有词串,函数P(w1w2...wm)满足归一化条件:

由于联合概率P(w1w2...wm)的参数量十分巨大,直接计算P(w1w2...wm)非常困难。如果把w1w2...wm看作一个变量,那么它具有|V|m种可能。

按照《现代汉语词典(第七版)》包含7万词条,句子长度按照20个词计算,模型参数量达到7.9792*1096的天文数字。

由此,w1w2...wm的生成过程可以看作单词逐个生成的过程。首先生成w1,之后根据w1生成w2,再根

据w1和w2生成w3,以此类推,根据前m−1个单词生成最后一个单词wm

为了减少P(w1w2...wm)模型参数量,可以利用句子序列通常情况下从左至右的生成过程进行分解,使用

链式法则得到:

其中,词wi出现的概率受它前面的i−1

文档评论(0)

邵宗其 + 关注
实名认证
文档贡献者

信息系统项目管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年07月25日上传了信息系统项目管理师

1亿VIP精品文档

相关文档