- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
insights
2
1.技术侧2.应用侧3.玩家格局insiqhts
大模型各模态总览:多模态发展趋势清晰,文本、图像商业化规模和
成熟度较高,AI视频生成正在迅速发展
概况关键节点代表应用成熟度
·文生图领域产生了仅次于基础模型的杀手级应用,获得了大量创作者和用户关注,成熟度仅次于文本模态
·Midjhouney已有超过2000万用户,在无投资的情况自我造血,在2023年的营收超过2亿美元
·大语言模型在文字处理上面的卓越表现开启了生成式AI的浪潮,基础模型能够基于语言进行推理是智能的重要表现
·在各个领域应用最为成熟,例如chatGPT日活用户已经突破1亿,openAI在2024年6月ARR的达到34亿美元
·2021年1月,openAI发布初代文生图模型DALL-E
·2022年8月,stableDiffusion在stability.ai的支持下
开源,推动社区在图像领域快速发展
·2023年3月,MidjourneyV5发布,迅速成为现象级应用
·目前主要是音乐生成(语音识别、克隆暂不纳入讨论),市场不如图片生成、视频生成等领域热门,比视频更加早期
·明星创业公司较少,但有加速的发展的态势
数据等资源要求较高,成熟相对文本、图像较慢
·领军企业已经做出标杆,显著加速领域发展,已出现多家视频生成领域创业公司,但商业化、产品化进展较慢
·2023年下半年,创业公司推出Runway-Gen2,stableVideoDiffusion、Pika等产品
·2024年2月,openAI发布sora引发全球关注
·2020年8月,NeRF论文发表
·2022年9月,谷歌发布DreamFusion
·2023年5月,openAI开源shape-E模型·2024年7月,Meta发布Meta3DGen
·2024年2月,suno.ai发布sunoV3
·2024年6月,stability.AI推出文生音频模型stableAudioopen
·技术路线目前尚不清晰,垂直明星创业公司较少,产品大多处于早期阶段,但正在加速发展
·视频是图像模态的进一步扩展,但由于技术复杂,对于算力、·2022年10月,Google、Meta发布Phenaki、Make-A-Video
·chatGPT
·character.AI
·Gemini
Anthropic
·stableDiffusion
Midjourney
·Dall-E3
·2018年6序,由AlecRadford主导在openAI推出GPT-1
sora
Runway
·快手可灵·Pixverse
suno
·StableAudio
信息来源:量子位智库
·Luma.AI
Meshy
3D
·
·
·
·
·
·
团+团
·检索生成主要是对现有的视
频素材根据关键词和标签进
行检索匹配,再进行相应的
拼接和排列组合
特点
·采用传统的跨模态视频检索技术,通过视频标签的或者视频语义理解的方式从数据库中的检索,再将这些素材进行剪辑、组合拼接在一起,
本质上还是键值对匹配的逻辑
·例如短视频平台的知识类视频、解说类视频,通过文本关键字在数据库中进行素材检索,然后在进行拼接组合生成
·创意空间有限,没有贡献增量素材,但成本极低,生成速度极快
1.技术侧2.应用侧3.玩家格局insiqhts
技术趋势:视频生成正在由检索生成、局部生成走向依靠自然语言提
·采用传统的计算机视觉(CV)、计算机图形学(CG)技术,但生成功能有限,主要是一些局
部的垂点功能
·例如效果生成,在现有视频上添加多种效果,如滤镜、光影、风格化、美颜特效等。也可以做局部动态化,如人物的面部表情生成、搞笑表情、爆款特效、舞蹈动作生成等
·有一定创意空间,生成部分新元素,成本低但应用的场景有限
无新增内容部分新增内容全量新增内容
信息来源:量子位智库4
示词的全量生成,生成内容更加
您可能关注的文档
- 2024年形式与政策ppt 秋形势与政策:改革的实践续篇 现代化的时代新篇ppt.pptx
- 2024年秋形势与政策:坚定前行谋统一 续写民族新辉煌PPT.pptx
- 2024秋形势与政策2024年上半年经济中国经济稳中有升未来增长可期.pptx
- 2024秋形势与政策开辟国家安全工作新局面 建设更高水平的平安中国.pptx
- 2024秋形势与政策教育强国、科技强国、人才强国建设一体推进.pptx
- 2024秋形势与政策推动构建新时代的大国关系格局大国外交.pptx
- 2024年秋形势与政策:七十五载迎盛世 砥砺前行续华章PPT.pptx
- 2024年秋形势与政策下好区域协调发展这盘棋PPT.pptx
- 2024年经济金融形势分析.pptx
- 2024秋形势与政策课件 专题二 扎实推动经济高质量发展.pptx
文档评论(0)