- 1、本文档共48页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
出品机构:甲子光年智库
研究团队:张一甲、宋涛
发布时间:2024.03
*刘瑶、小麦对本报告亦有贡献。;;
Part02AIGC视频生成推动世界走向“AI创生时代”;;
能力项;
1.2Sora的展现效果
大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性
OpenAI发现视频模型在大规模训练时表现出许多有趣的“涌现”能力,使Sora能够从物理世界中模拟人、动物和环境。值得一提的是OpenAI官网所说的“theyarepurelyphenomena
ofscale”——它们纯粹是“规模现象”,这再一次验证了“暴力美学”。;
1.3Sora的出现意味着AGI的又一个里程碑时刻
Sora意味着scalinglaw(规模法则)再次验证,推动文生视频进入“GPT-3”时刻
Scalinglaw(规模法则)的再次验证:虽然Sora并不十全十美,但它通过scalinglaw和原有模型拉开了差距,为视频生成领域提供了另一条可
以走通的路线,推动行业进入全新的阶段。;
诈骗垃圾信息
识别
翻译
基础问答回应;
40;
1.6Sora的技术原理
Patch(时空编码思路)+DiT(Diffusion和Transformer模型的结合)+ScalingLaw(规模效应)
Sora模型将视频压缩到低维空间(latentspace),并使用时空补丁(Spacetimelatentpatches)来表示视频。这个过程类似于将文本转换为
Token表示,而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练,并使用解码器将低维空间映射回像素空间,以生成视频。
Sora使用了diffusion模型,给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。
Sora是diffusiontransformer,而transformer在各个领域都表现出显著的规模效应。;;;
74;;;;
AIGC视频生成工具可对视频生产流程进行重塑,由传统视频制作范式进化到“提示交互式”新范式。
“提示交互式”新范式相比传统范式具有三方面的重塑:
?“拍扁”制作过程:传统视频制作流程涉及多个阶段和专业团队的合作,耗费大量时间和资源;而AIGC视频生成可将视频生成、剪辑、后期等环节集于一体,仅需要输入提示词即可生成视频,省去了很多繁琐步骤,尤其可将摄影、素材收集、后期等环节取消或缩短。
?提升创意和剪辑自由度:传统视频制作通常由制作团队提出创意、编写剧本,受人的能力局限;提示交互式视频生成用更可视化的方式激发创作者想象力,支持创作者调用AI模型探索每个镜头的无限可能,而且剪辑过程可以随时发生。
?节省制作成本和时间:传统视频制作流程需要投入较多的人力、物力和时间,而提示交互式视频生成的流程成本和时间较少,可在提示交互的飞轮中迭代生成最终满足需要的内容。;
2.2L1-AI生产时代:AIGC视频生成将“多点开花”,开源是下个关键节点
伴随开源模型的出现,AI视频生成将迎来多元化的入局者;;
视频将成为人类的第二语言,大量用户会进行行为迁移——原本用文字表达的场景,将用视频直接表达。
文本与视频的无缝切换,让人类语言告别“词不达意”、“意在言外”的阶段。;
2.3L2-AI原生时代:AI渗透率无限逼近人类在数字世界生产活动行为边界
数字人与视频生成大模型的结合,推动数字人发展进入L5级
数字人与AIGC的结合一直是重要发展方向。在Sora出现之前,主要是数字人与文本生成模型(如GPT系列)的结合,生成虚拟角色的对话和互动内容,主要应用于虚拟助手、客服机器人、;
购物;
2.4L3-AI创生
文档评论(0)