网站大量收购独家精品文档,联系QQ:2885784924

WAN:开放和先进的大模型视频生成模型-阿里巴巴集团万象团队.pdf

WAN:开放和先进的大模型视频生成模型-阿里巴巴集团万象团队.pdf

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

WAN:开放和先进的⼤规模视频

⽣成模型

阿⾥巴巴集团万象团队

摘要

这份报告介绍了“Wan”,⼀个全⾯开放的视频基础模型套件,旨在推动

视频⽣成的边界。Wan建⽴在主流扩散变压器范式之上,通过⼀系列创新

(包括我们的新颖时空变分⾃动编码器(VAE)、可扩展的预训练策略、

⼤规模数据整理和⾃动化评估指标)在⽣成能⼒⽅⾯取得了重⼤进展。这

些贡献共同增强了模型的性能和多功能性。具体⽽⾔,Wan具有四个关键

特性:领先性能:Wan的14B模型在⼀个包含数⼗亿张图像和视频的庞⼤

数据集上进⾏训练,展⽰了视频⽣成相对于数据和模型⼤⼩的扩展规律。

它在多个内部和外部基准测试中始终优于现有的开源模型以及最先进的商

业解决⽅案,表现出明显和显著的性能优势。全⾯性:Wan提供两个强⼤

的模型,即1.3B和14B参数,分别⽤于效率和有效性。它还涵盖多个下游应

⽤,包括图像到视频、指导式视频编辑和个⼈视频⽣成,涵盖多达⼋个任

务。同时,Wan是第⼀个可以⽣成中⽂和英⽂视觉⽂本的模型,极⼤增强

了其实⽤价值。消费级效率:1.3B模型展⽰出卓越的资源效率,仅需8.19G

B的VRAM,使其与各种消费级GPU兼容。

Wan2.1-14B抹茶浑元CN-TopACN-TopB苏WinRateofWan的流失率制图率Wan的胜率

0.75

0.72

0.70CN-TopC0.240.030.73

0.700.690.69

0.67

跑道0.150.030.82

0.650.64

0.60

CN-TopB0.240.080.68

0.55

CN-TopA0.250.060.69

0.50

⼈类偏好获胜率

Wan-Bench分数

图1:Wan与最先进的开源和闭源模型进⾏⽐较。在基准测试和⼈类评估⽅⾯,Wan始终展现出优越

的结果。请注意,HunyuanVideo(Kong等,2024年)是使⽤开源模型进⾏测试。

1

内容

1介绍3

2相关⼯作3

3数据处理流程5

3.1预训练数据

文档评论(0)

如此醉 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档