- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
VN
V
88
8
生成未必理解:
基于扩散模型能否实现视觉世界模型?
袁粒LiYuan
SchoolofECE,PekingUniversityShenzhenGraduateSchool
“WhatIcannotcreate,Idonotunderstand”—RichardFeynman
“WhatIcangenerate,Idounderstand”
“WhatIcanunderstand,Idogenerate”
?
基于扩散的生成真的理解了吗?
跑步机上的人反着跑步,不符合逻辑
Prompt:Step-printingsceneofapersonrunning,cinematicfilmshotin35mm.
杯子水先撒出来,后破碎,不符合事实
Prompt:Glassshatteringwithredliquidandicecubes
小狼的数量时而五只,时而三只或四只
Prompt:Fivegraywolfpupsfrolickingandchasingeachotheraroundaremotegravelroad
DiffusionsBeatGANs
V.S.
V.S.
Dhariwal,Prafulla,andAlexanderNichol.DiffusionModelsbeatGansonImageSynthesis.NeurIPS34(2021):8780-8794.4
基于Diffusion的视觉生成发展
HuaweiproposedtheT2ImodelPixArt-αbasedonDiTGoogle
HuaweiproposedtheT2ImodelPixArt-αbasedonDiT
GoogleproposedV1oftheVideoDiffusionModel
Proposed
DDIM
AcademicProgress
ShanghaiAI
Labproposed
Latte,aT2V
modelbasedon
DiT
T2I-Adapter(PKU)andControlNet
(Stanford)were
proposedfor
preciseT2Icontrol
CLIP:Aligningtextandimagespaces,laterwidelyusedforT2I
DDPMwas
proposedin
June
LoRAforDiffusion
wasproposed,
quicklyadoptedforvariousapplications
LatentDiffusion
Model(LDM)was
processed
Metaproposed
DiffusionTransformer,
replacingU-NetwithTransformer
20242023202220202021
2024
2023
2022
2020
2021
StabilityAIopen-sourcedStableDiffusionV1andV2OpenAIreleasedSora
StabilityAI
open-sourced
StableDiffusionV1andV2
OpenAIreleasedSora,a
T2Vmodel,butnoAPI
accessyet
OpenAIproposed
DALL-E,basedon
Transformernot
Diffusion
THUproposed
CogView,atext-
to-imagemodel
basedon
Transformer,
followingDALL-E
Videogenerationapps
PikaV1,RunwayGen1
andGen2,andStable
VideoDiffusionemerged
KelingModelby
KuaishouViduby
ShengshuOpenSora
planbyPKU
ApplicationProgress
OpenAIproposed
DALL-E2,based
onDi
您可能关注的文档
- 2025年内衣营销通案-阿里妈妈.docx
- 2025年全球AR VR行业发展趋势报告.docx
- 2025汽车基础软件测试指南.docx
- 2025上海车展展前报告.docx
- 2025小红书虚拟行业经营一本通.docx
- 2025校园产业生态白皮书.docx
- 2025中国智能投影市场全产业链发展白皮书.docx
- AIGC技术赋能教育数字化转型的机遇与挑战.docx
- B2B行业企业微信应用洞察白皮书-致趣百川.docx
- 即时零售行业发展报告(2024).docx
- 人工智能图像识别在工业质检中的应用与2025年精准度提升策略研究报告.docx
- 《农业机械制造企业产品创新设计中的用户需求匹配与产业链协同创新实践案例研究》教学研究课题报告.docx
- 《土壤污染修复技术在土壤污染场地治理中的修复技术政策效益分析》教学研究课题报告.docx
- 2025年互联网+家政服务市场细分领域投资机会研究报告.docx
- 机器人视觉系统在2025年自动化焊接设备中的应用升级报告.docx
- 小学生人工智能编程教育中的项目式学习策略研究教学研究课题报告.docx
- 高中体育健康知识模块教学策略与实践探索教学研究课题报告.docx
- 电商“最后一公里”配送与农村电商发展研究报告.docx
- 2025年新能源汽车充电设施互联互通技术标准下的安全性能评估报告.docx
- 中学化学实验教学教学质量波动原因分析:基于大数据的对策教学研究课题报告.docx
文档评论(0)