传媒行业AI视频(二)：海内外视频模型密集发布，API打开商业化空间.docx

下载文档

20
0
约8.2千字
约 11页
2024-10-30 发布于北京
举报
版权申诉
保障服务

传媒行业AI视频(二)：海内外视频模型密集发布，API打开商业化空间.docx

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

前言

我们在7月份发布的AI视频报告系列（一）《国产AI视频：可用度强性价比高，快手可灵开启C端付费》

中，率先提示国产视频模型在可用度、性价比等方面赶超海外。近期全球视频模型密集发布和迭代，无论是效果优化、功能创新还是应用落地，均有超预期表现。

6-10月海内外超10款视频模型更新。6月快手可灵1.0率先发布；7月智谱、PixVerse、Vidu推出；9月快手可灵更新1.5模型，阿里万相和字节豆包发布，海外Runway、Luma和国内快手可灵、Vidu发布API接口；10月海外MetaMovieGen和Pika1.5发布。

图表1：6-10月主要AI视频产品梳理与对比

资料来源：各公司官网，证券

年内还有两家明星AI公司的视频模型有望发布。国产视频模型主要由大厂和AI创业公司研发，AI创业公司中，Minimax和智谱AI均已发布视频模型，我们认为整体性能位于国内第一梯队。据36氪、新浪财经等媒

体报道，月之暗面、阶跃星辰有望在年内发布视频模型，叠加Minimax、智谱的视频模型持续迭代，我们预计国产视频模型的技术能力有望再上新台阶。

图表2：国内明星AI创业公司视频模型进展

资料来源：各公司官网，36氪，新浪财经，证券

科技大厂的视频模型同样密集更新迭代。快手可灵自6月发布至今已完成10次迭代，其AI视频编辑功能

也即将上线，增加可灵的实用性；字节的豆包视频模型已经在内测API和应用，国庆节后会放出更多公开API。此外，Meta深耕社交场景，用户规模大，期待MetaMovieGen在25年全面开放，Instagram等应用有望集成AI视频能力，推动AI视频技术全球普及。

图表3：全球视频模型后续重要节点

资料来源：各公司官网，36氪，新浪财经，证券

我们认为近期新模型发布，反映三大产业趋势：

性能迭代：动态效果提升，AI视频功能创新。视频动态和运镜效果持续提升，且在常规的文生和图生视频基础上，创新推出视频编辑、视频特效等功能，提高视频生成的可控性和趣味性。

应用落地：API接口密集发布，看好AI视频三大落地场景。海外Runway、Luma和国内快手可灵、Vidu等均已发布API接口，更多AI应用有望集成视频生成功能。我们预计应用将面向C端社交、创作者和B端影视三大场景加速落地。

技术创新：Meta提出全新技术路线，完整技术论文推动产业进步。2月初Sora验证了DiT架构在视频生成方面的可行性，后续海内外公司普遍沿用Sora的技术路径。近期MetaMovieGen发布，创新采用区别于

DiT的Transformer+FlowMatching架构，且发布92页技术报告详细披露训练方法、架构设计等，有望为其他厂商提供新的视频模型开发思路。

一、性能迭代：动态效果提升，AI视频功能创新

核心能力：动态效果更自然流畅，通过运镜增加画面动感。物体进行自然流畅的运动，并保持一致性和物理性是AI视频的主要难点之一。同时我们认为动态表现是AI视频能否大规模应用的主要影响因素之一，一方面，随着动态效果优化，AI视频内容可以从单纯的背景、转场拓展至物体运动，另一方面，动态效果在影视制

作中成本高、耗时长，亟需AI技术进行降本增效。现有产品中，国内可灵、豆包和海外MetaMovieGen在动态效果方面表现较好。

快手可灵：1.5模型的动态质量显著提升。对比1.5模型和1.0模型在可灵AI出圈案例“小男孩吃面”中的表现，1.5模型更逼真地展现面条从被夹起到入口的过程，弹性、垂坠感表现较好，同时小男孩手握筷子和咀嚼面条的动作，也相比1.0模型更加自然流畅，整体运动合理性增强。

行业动态报告

字节豆包：动作连贯，运镜表现突出。根据Demo视频，人物可以完成“摘下墨镜、站起身、走向雕像”的连贯动作，且实现360度围绕主体环绕、前后景变焦、目标跟随、升降镜头等视角切换，提高物体动态的动感和沉浸式感受。

图表4：豆包视频大模型动态效果好

资料来源：火山引擎公众号，证券

创新能力：AI视频功能创新，提高可控性和趣味性。除了常规的文生视频和图生视频能力，近期新产品增加了视频编辑、音效匹配、个性化视频和视频特效等一系列新功能，用户可以一站式完成视频生成和剪辑，提

高工具的可用性。我们认为后续视频模型除了进一步优化视频生成核心能力，还会陆续在视频编辑、音效匹配等创新能力方面展开竞争，进一步提高AI视频的实用性、趣味性。

图表5：视频模型性能发展展望

资料来源

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

传媒行业AI视频(二)：海内外视频模型密集发布，API打开商业化空间.docx