AI视频生成研究报告 2024.pptxVIP

下载本文档

1
0
约4.54万字
约 46页
2024-11-08 发布于天津
举报
版权申诉

AI视频生成研究报告 2024.pptx

1、本文档共46页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

insights

1.技术侧2.应用侧3.玩家格局insiqhts

大模型各模态总览：多模态发展趋势清晰，文本、图像商业化规模和

成熟度较高，AI视频生成正在迅速发展

概况关键节点代表应用成熟度

·文生图领域产生了仅次于基础模型的杀手级应用，获得了大量创作者和用户关注，成熟度仅次于文本模态

·Midjhouney已有超过2000万用户，在无投资的情况自我造血，在2023年的营收超过2亿美元

·大语言模型在文字处理上面的卓越表现开启了生成式AI的浪潮，基础模型能够基于语言进行推理是智能的重要表现

·在各个领域应用最为成熟，例如chatGPT日活用户已经突破1亿，openAI在2024年6月ARR的达到34亿美元

·2021年1月，openAI发布初代文生图模型DALL-E

·2022年8月，stableDiffusion在stability.ai的支持下

开源，推动社区在图像领域快速发展

·2023年3月，MidjourneyV5发布，迅速成为现象级应用

·目前主要是音乐生成(语音识别、克隆暂不纳入讨论),市场不如图片生成、视频生成等领域热门，比视频更加早期

·明星创业公司较少，但有加速的发展的态势

数据等资源要求较高，成熟相对文本、图像较慢

·领军企业已经做出标杆，显著加速领域发展，已出现多家视频生成领域创业公司，但商业化、产品化进展较慢

·2023年下半年，创业公司推出Runway-Gen2,stableVideoDiffusion、Pika等产品

·2024年2月，openAI发布sora引发全球关注

·2020年8月，NeRF论文发表

·2022年9月，谷歌发布DreamFusion

·2023年5月，openAI开源shape-E模型·2024年7月，Meta发布Meta3DGen

·2024年2月，suno.ai发布sunoV3

·2024年6月，stability.AI推出文生音频模型stableAudioopen

·技术路线目前尚不清晰，垂直明星创业公司较少，产品大多处于早期阶段，但正在加速发展

·视频是图像模态的进一步扩展，但由于技术复杂，对于算力、·2022年10月，Google、Meta发布Phenaki、Make-A-Video

·chatGPT

·character.AI

·Gemini

Anthropic

·stableDiffusion

Midjourney

·Dall-E3

·2018年6序，由AlecRadford主导在openAI推出GPT-1

sora

Runway

·快手可灵·Pixverse

suno

·StableAudio

信息来源：量子位智库

·Luma.AI

Meshy

团+团

·检索生成主要是对现有的视

频素材根据关键词和标签进

行检索匹配，再进行相应的

拼接和排列组合

特点

·采用传统的跨模态视频检索技术，通过视频标签的或者视频语义理解的方式从数据库中的检索，再将这些素材进行剪辑、组合拼接在一起，

本质上还是键值对匹配的逻辑

·例如短视频平台的知识类视频、解说类视频，通过文本关键字在数据库中进行素材检索，然后在进行拼接组合生成

·创意空间有限，没有贡献增量素材，但成本极低，生成速度极快

1.技术侧2.应用侧3.玩家格局insiqhts

技术趋势：视频生成正在由检索生成、局部生成走向依靠自然语言提

·采用传统的计算机视觉(CV)、计算机图形学(CG)技术，但生成功能有限，主要是一些局

部的垂点功能

·例如效果生成，在现有视频上添加多种效果，如滤镜、光影、风格化、美颜特效等。也可以做局部动态化，如人物的面部表情生成、搞笑表情、爆款特效、舞蹈动作生成等

·有一定创意空间，生成部分新元素，成本低但应用的场景有限

无新增内容部分新增内容全量新增内容

信息来源：量子位智库4

示词的全量生成，生成内容更加

您可能关注的文档

文档评论（0）

131****1036 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

AI视频生成研究报告 2024.pptxVIP