- 1、本文档共61页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
人工智能技术与应用分析;
人工智能技术发展
Deepseek认知与影响
AI+金融实践案例
创业介绍—中科闻歌;
01人工智能技术发展;
ChatGPT揭开通用人工智能序幕
弱人工智能→强人工智能;
通畅
通畅的人机交互
意图识别及逻辑推理;
ChatGPT不是基础科学突破,是工程积累奇迹;
阶段一:泛学(学习多样文本)
让鹦鹉听收音机各种节目学说话
100+语种文本人文社科新闻娱乐
编程语言网站问答科技文献;
pAUsPOTuONT1000FYOCATF0900sTwETious
·Tc
Exclusive:OpenAIUsedKenyanWorkerson
LessThan$2PerHourtoMakeChatGPTLess
Toxic
YLLYPtmaoAsUAYao23700AMEsT
Contentwarning:thisstorycontainsdescriptionsofsexualabuse;
大模型:大数据与大算力
2022年GPU卡销售
约5万张
价值约40亿美元
15亿参数
1.2亿参数40GB数据5GB数据
GPT2
GPT1;
感知认知智能
大语言模型多模态大模型;
误解;
STEP3
领域工程
指令微调、回馈学习、应用研发;
分析挑战;
升级赋能:
现有系统和业务小模型,
点上赋能
●数据分析、知识积累
●分析深度+高质量+
●高效率;
02Deepseek认知与影响;
特点:
·后训练:在基础模型上进行大规模强化学习
·蒸馏:小型模型同样可以利用R1的数据而强大
·与Open-01-1217可比
DeepSeekR1
(671Btotal,37Bactivated)
2025.1.22
未来工作
“通用能力(toolcall、多轮、角色扮演、
json输出)不及V3”;
“语言混用”;
“对fewshot敏感”;
“软件工程能力待提升”;
DeepSeekR1加速“O1时刻”到来
深度思考模型让大模型领域
再度迎来“ChatGPT/o1时刻”X;;
Table1|TrainingcostsofDeepSeek-V3,assumingtherentalpriceofH800is52perGPUhour.
架构侧优化提升训练推理效率
MoE:采用细粒度专家和共享专家,671B参数,每个token激活参数37B,降本增效。
MLA:多头潜在注意力(Multi-HeadLatentAttention)通过低秩压缩减少KV缓存。
MTP:通过预测多个未来token提升规划能力(Multi-TokenPrediction),也用于推理加速。
Infra优化榨干阉割版特供显卡性能
·计算集群:2048*NVIDIAH800GPU???行训练。
·训练框架:流水线并行+专家并行+数据并行,定制化PTX指令集(所谓“绕过CUDA”),提升节点间通信效率。
·FP8混合精度训练:首次验证FP8训练的可行性,显著降低GPU内存使用并加速训练。;
DeepSeek通过PTX编程“绕过CUDA”?
·CUDA和PTX的关系:
·PTX(ParallelThreadExecution)是英伟达的并行线程执行中间表示语言(底层汇编语言)
·CUDA(ComputeUnifiedDeviceArchitecture)是英伟达统一设备计算架构,封装了C++实现的GPU编程接口
·CUDA编译器(NVIDIACUDACompiler,即nvcc)在编译流程中把CUDA代码编译为PTX代码,PTX代码会被进一步编译为特定GPU
架构的机器码(ShaderAssembly,SASS),二进制机器码在GPU上执行。
·结论:
·PTX是CUDA编译的中间表示,仍然依赖于CUDA的编译器和运行时环境(类似于windows驱动程序开发)并不意味着真正绕过了CUDA。
·高级场景中,开发者可以直接编写PTX代码,并将其嵌入到CUDA程序中,用于性能优化,但仍然是在C
文档评论(0)