- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
从ChatGPT看大模型的演化
鹏城实验室王晖
汇报提纲
二三OpenAI的使命任务与机制创新
二
三
OpenAI的使命任务与机制创新
ChatGPT的发展历程
ChatGPT的技术创新
基于人机协作的复杂AI软件持续构造
基于人机协作的复杂AI软件持续构造与演化
四
一、OpenAI的使命任务与机制创新
“尼克·波斯托姆的《超级智能》一书非常值得一读。人工智能可能会比核武器还更具危险性,我们一定要谨慎对待它。”
“避免AI潜在威胁的最好方式并不是去限制它,而是透明化地全面普及化。”
——埃隆·马斯克,2014年8月
YC总裁山姆·阿尔特曼SamAltman
使命任务:突破AGI技术,并普惠人类。
扛开源开放大旗,打破Google和FacebookAI技术壁垒。
创立于2015年12月
非盈利研究机构
使命与愿景:创造一个新的世界(AIforGood)
诗和远方、星辰大海
一、OpenAI的使命任务与机制创新
OpenAI设立的核心技术研发方向:
从强化学习到无监督学习,最终实现AGI。
4款强化学习开源软件平台第一款:Gym,2016年4月首次发布。
第二款:Universe,2016年12月首次发布。
第三款:Roboschool,2017年5月首次发布。第四款:Blocksparse,2017年12月首次发布。
一、OpenAI的使命任务与机制创新
发展困境:需要大量资本投入大规模云计算,吸引人才、
留住人才,并构建AI超级计算机。
2019年3月11日,OpenAI宣布重组:成立营利性公司OpenAILP。
山姆·阿尔特曼离任YC,任OpenAICEO。马斯克离开董事局。
道路是曲折的:
不忘初心,牢记使命。
一司两制。
一、OpenAI的使命任务与机制创新
山姆·阿尔特曼:2019年3月任OpenAICEO
提出著名的“万物摩尔定律”MooresLawforEverything()
u越来越多人类的工作将被能够思考和学习的软件取代,更多的权力将从劳动力转移到资本上。需要设计一种制度拥抱这种技术化的未来,公平地分配由此产生的财富。
We’repartneringtodevelopahardwareandsoftwareplatformwithinMicrosoftAzurewhichwillscaletoAGI.We’lljointlydevelopnewAzureAIsupercomputingtechnologies.
战略调整:合作共赢、发展是硬道理。
汇报提纲
OpenAI的使命任务与机制创新
OpenAI的使命任务与机制创新
一
二ChatGPT的发展历程
二
ChatGPT的发展历程
三
ChatGPT的技术创新
基于人机协作的复杂AI软件持续构造
基于人机协作的复杂AI软件持续构造与演化
四
二、ChatGPT的发展历程——不断探索演进
无监督学习AGI模型技术探索演进时间
无监督学习AGI模型技术探索演进
时间
模型
能力
2018.06
GPT:transformer-decoderonly
1.17亿参数,语料约5GB。无监督学习:大量无标签数据上的生成式预训练模型。
2019.02
GPT-2
最大15亿参数,语料40GB。无监督预训练模型做有监督的任务。
2020.07
GPT-3(davinci)
最大1750亿参数,原始语料45TB,训练语料570GB。
生成+知识库+in-contextlearning
2021.07
CodexInitial(基于12B变种GPT3微调)
Codetrainingcode推理,演变成Code-cushman-001
2022.03
instruct-davinci-betatext-davinci-001
Instructiontuning(监督指令微调)Instructiontuning(文本)
2022.4-7
code-davinci-002(Codex)侧重于Code
GPT3.5变体(优于Text-davinci-002和003)+instructiontuning
响应人类指令+泛化任务+代码能力+复杂推理(fromtrainedoncode)
2022.5-6
Text-davinci-002侧重于Text
supervisedinstruction-tunedmodel
降低了in-contextlearning能力,增强zero-shot能力
2022.11
Text-davinci-003(RLHF)ChatGPT(RLHF)
增加R
文档评论(0)