AI音频软硬结合声动未来,AI视频扬帆起航.pdfVIP

AI音频软硬结合声动未来,AI视频扬帆起航.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

目录

一、AI+视频持续火热:Meta、字节发布新模型,可灵、Pika、美图迭代版本5

二、OpenAIDevDayAI音频更新亮眼,有望催化AI语音交互应用成熟10

三、投资建议15

四、风险因素16

表目录

表1:OpenAIRealtime音频API价格和其他模型文本价格比较15

表2:相关上市公司估值表(截至2024.10.15)16

图目录

图1:MetaMovieGen基础架构5

图2:MetaMovieGen视频模型和其他模型量化指标比较6

图3:MetaMovieGen视频模型生成效果比较6

图4:MetaMovieGen模型视频编辑原理7

图5:MetaMovieGen模型可生成带有音频的视频7

图6:字节PixelDance视频模型复杂prompt时序性指令生成8

图7:可灵AI0930更新“对口型”功能9

图8:Pika1.5官网更新视频效果9

图9:美图MOKI一键成片功能展示10

图10:Speak接入OpenAIRealtimeAPI支持其角色扮演进行新语言联系功能11

图11:Duolingo2024Duocon更新功能(videocallwithLily,Adventures,Math,Music)12

图12:20Q3-24Q2Duolingo日活和月活用户数12

图13:20Q1-24Q2Duolingo付费订阅用户数13

图15:西湖心辰LingoAI语音交互演示13

图16:盛天网络给麦AI功能迭代14

图17:昆仑万维Mureka创作页面15

请阅读最后一页免责声明及信息披露4

一、AI+视频持续火热:Meta、字节发布新模型,可灵、Pika、美图迭代版本

(一)MetaMovieGen——主打精确视频编辑和音视频同步生成

2024年10月4日,Meta发布了MetaMovieGen模型,是一项针对图像、视频和音频的突破性生成式AI研

究,MovieGen具有四种功能:视频生成、个性化视频生成、精确视频编辑和音频生成。1)视频生成:该30B

参数转换器模型能够以每秒16帧的速度生成长达16秒的视频。2)个性化视频生成:将一个人的图像作为输入,

并将其与文本提示相结合,以生成包含参考人物和文本提示所告知的丰富视觉细节的视频。3)视频编辑:同一

基础模型的编辑变体以视频和文本提示作为输入,精确执行任务以生成所需的输出。它将视频生成与高级图像编

辑相结合,执行局部编辑(例如添加、删除或替换元素)以及全局更改(例如背景或样式修改)。4)音频生成:

13B参数音频生成模型,该模型可以接收视频和可选的文本提示,生成长达45秒的高质量高保真音频,包括

环境声音、音效(Foley)和乐器背景音乐,所有这些都与视频内容同步,在音频质量、视频到音频对齐和文本到

音频对齐方面总体上实现了一流的性能。

Meta首先通过一个时间自动编码器模型(TAE)训练了一个时空压缩的隐空间,然后再基于此训练了一个生成

模型。模型架构上,Meta采用了Transformer,整体位于Llama3的设计空间中。推理阶段,Meta的一个创

新思路是首先使用Llama3对用户输入的提示词进行重写,将其扩展成更加详细的版本。实践表明该方法确实

有助于提升生成结果的质量。

图1:MetaMovieGen基础架构

资料来源:Meta官网

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档