- 1、本文档共60页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
WAN:开放和先进的⼤规模视频
⽣成模型
阿⾥巴巴集团万象团队
摘要
这份报告介绍了“Wan”,⼀个全⾯开放的视频基础模型套件,旨在推动
视频⽣成的边界。Wan建⽴在主流扩散变压器范式之上,通过⼀系列创新
(包括我们的新颖时空变分⾃动编码器(VAE)、可扩展的预训练策略、
⼤规模数据整理和⾃动化评估指标)在⽣成能⼒⽅⾯取得了重⼤进展。这
些贡献共同增强了模型的性能和多功能性。具体⽽⾔,Wan具有四个关键
特性:领先性能:Wan的14B模型在⼀个包含数⼗亿张图像和视频的庞⼤
数据集上进⾏训练,展⽰了视频⽣成相对于数据和模型⼤⼩的扩展规律。
它在多个内部和外部基准测试中始终优于现有的开源模型以及最先进的商
业解决⽅案,表现出明显和显著的性能优势。全⾯性:Wan提供两个强⼤
的模型,即1.3B和14B参数,分别⽤于效率和有效性。它还涵盖多个下游应
⽤,包括图像到视频、指导式视频编辑和个⼈视频⽣成,涵盖多达⼋个任
务。同时,Wan是第⼀个可以⽣成中⽂和英⽂视觉⽂本的模型,极⼤增强
了其实⽤价值。消费级效率:1.3B模型展⽰出卓越的资源效率,仅需8.19G
B的VRAM,使其与各种消费级GPU兼容。
Wan2.1-14B抹茶浑元CN-TopACN-TopB苏WinRateofWan的流失率制图率Wan的胜率
0.75
0.72
0.70CN-TopC0.240.030.73
0.700.690.69
0.67
跑道0.150.030.82
0.650.64
0.60
CN-TopB0.240.080.68
0.55
CN-TopA0.250.060.69
0.50
⼈类偏好获胜率
Wan-Bench分数
图1:Wan与最先进的开源和闭源模型进⾏⽐较。在基准测试和⼈类评估⽅⾯,Wan始终展现出优越
的结果。请注意,HunyuanVideo(Kong等,2024年)是使⽤开源模型进⾏测试。
1
内容
1介绍3
2相关⼯作3
3数据处理流程5
3.1预训练数据
您可能关注的文档
- 2024年粤港澳大湾区写字楼市场-第一太平戴维斯.pdf
- 2024年中国香港及美國IPO洞察報告-富途安逸.pdf
- 2025Q1射击类移动游戏发展趋势报告-点点数据.pdf
- 2025贸易的未来关键矿产报告-DMCC.pdf
- 2025年11.0A-通感一体赋能数字低空网络白皮书.pdf
- 2025年11.0B-6G协作通感一体化关键技术白皮书.pdf
- 2025年11.0C-双基地感知关键技术研究与验证白皮书.pdf
- 2025年11.0D-数字低空网络架构白皮书.pdf
- 2025年11.0E-基于可编程技术的6G用户面技术白皮书.pdf
- 2025年11.0F-联盟网络Co-NET白皮书2.0.pdf
文档评论(0)