网站大量收购闲置独家精品文档,联系QQ:2885784924

从ChatGPT看大模型的演化.docx

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

从ChatGPT看大模型的演化

鹏城实验室王晖

汇报提纲

二三OpenAI的使命任务与机制创新

OpenAI的使命任务与机制创新

ChatGPT的发展历程

ChatGPT的技术创新

基于人机协作的复杂AI软件持续构造

基于人机协作的复杂AI软件持续构造与演化

一、OpenAI的使命任务与机制创新

“尼克·波斯托姆的《超级智能》一书非常值得一读。人工智能可能会比核武器还更具危险性,我们一定要谨慎对待它。”

“避免AI潜在威胁的最好方式并不是去限制它,而是透明化地全面普及化。”

——埃隆·马斯克,2014年8月

YC总裁山姆·阿尔特曼SamAltman

使命任务:突破AGI技术,并普惠人类。

扛开源开放大旗,打破Google和FacebookAI技术壁垒。

创立于2015年12月

非盈利研究机构

使命与愿景:创造一个新的世界(AIforGood)

诗和远方、星辰大海

一、OpenAI的使命任务与机制创新

OpenAI设立的核心技术研发方向:

从强化学习到无监督学习,最终实现AGI。

4款强化学习开源软件平台第一款:Gym,2016年4月首次发布。

第二款:Universe,2016年12月首次发布。

第三款:Roboschool,2017年5月首次发布。第四款:Blocksparse,2017年12月首次发布。

一、OpenAI的使命任务与机制创新

发展困境:需要大量资本投入大规模云计算,吸引人才、

留住人才,并构建AI超级计算机。

2019年3月11日,OpenAI宣布重组:成立营利性公司OpenAILP。

山姆·阿尔特曼离任YC,任OpenAICEO。马斯克离开董事局。

道路是曲折的:

不忘初心,牢记使命。

一司两制。

一、OpenAI的使命任务与机制创新

山姆·阿尔特曼:2019年3月任OpenAICEO

提出著名的“万物摩尔定律”MooresLawforEverything()

u越来越多人类的工作将被能够思考和学习的软件取代,更多的权力将从劳动力转移到资本上。需要设计一种制度拥抱这种技术化的未来,公平地分配由此产生的财富。

We’repartneringtodevelopahardwareandsoftwareplatformwithinMicrosoftAzurewhichwillscaletoAGI.We’lljointlydevelopnewAzureAIsupercomputingtechnologies.

战略调整:合作共赢、发展是硬道理。

汇报提纲

OpenAI的使命任务与机制创新

OpenAI的使命任务与机制创新

二ChatGPT的发展历程

ChatGPT的发展历程

ChatGPT的技术创新

基于人机协作的复杂AI软件持续构造

基于人机协作的复杂AI软件持续构造与演化

二、ChatGPT的发展历程——不断探索演进

无监督学习AGI模型技术探索演进时间

无监督学习AGI模型技术探索演进

时间

模型

能力

2018.06

GPT:transformer-decoderonly

1.17亿参数,语料约5GB。无监督学习:大量无标签数据上的生成式预训练模型。

2019.02

GPT-2

最大15亿参数,语料40GB。无监督预训练模型做有监督的任务。

2020.07

GPT-3(davinci)

最大1750亿参数,原始语料45TB,训练语料570GB。

生成+知识库+in-contextlearning

2021.07

CodexInitial(基于12B变种GPT3微调)

Codetrainingcode推理,演变成Code-cushman-001

2022.03

instruct-davinci-betatext-davinci-001

Instructiontuning(监督指令微调)Instructiontuning(文本)

2022.4-7

code-davinci-002(Codex)侧重于Code

GPT3.5变体(优于Text-davinci-002和003)+instructiontuning

响应人类指令+泛化任务+代码能力+复杂推理(fromtrainedoncode)

2022.5-6

Text-davinci-002侧重于Text

supervisedinstruction-tunedmodel

降低了in-contextlearning能力,增强zero-shot能力

2022.11

Text-davinci-003(RLHF)ChatGPT(RLHF)

增加R

文档评论(0)

186****0576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档