通义万相Wan2.1- 阿里推出的开源视频生成大模型

通义万相Wan2.1是什么？

通义万相Wan2.1是阿里巴巴推出的开源视频生成大模型，专注于高质量视频生成，一共包含4个模型，文生视频模型有1.3B和14B两个规格。图生视频模型都是14B，分辨率一个480P一个720P。Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势，无论是创作者、开发者还是企业用户，都可以根据自己的需求选择合适的模型和功能，轻松实现高质量的视频生成。

同时，万相还支持业内领先的中英文文字特效生成，满足广告、短视频等领域的创意需求。

在权威评测集VBench中，万相以总分86.22%的成绩登上榜首位置，大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模型。

通义万相Wan2.1的功能特点

高质量视频生成：通义万相Wan2.1能够生成逼真的视觉效果，严格遵循物理规则，提升画面的像素质量和真实感。
复杂运动处理：通义万相Wan2.1擅长处理大规模肢体运动和复杂旋转，如花样滑冰、游泳等场景，保持身体协调性和真实运动轨迹。
多语言文字特效：通义万相Wan2.1支持中英文文字特效，满足广告设计和短视频制作等行业的需求。
高效编解码技术：通义万相Wan2.1采用自研的 VAE（变分自编码器）和 DiT（去噪扩散 Transformer）架构，支持无限长 1080P 视频的高效编解码。
物理规律还原：通义万相Wan2.1精准模拟现实世界中的物理规律，如碰撞、反弹等，进一步提升画面逼真度。
超长上下文训练：通义万相Wan2.1支持超长上下文，确保文本指令与视频生成的精准对应，提升生成效率。

通义万相Wan2.1的技术原理

通义万相Wan2.1基于主流的DiT和线性噪声轨迹Flow Matching范式，万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的3D因果VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标，这些创新共同提升了模型的最终性能表现。

视频编码与解码

自研高效的3D因果VAE：基于3D因果VAE模块，实现256倍无损视频隐空间压缩，通过特征缓存机制分块处理视频，避免对长视频进行端到端编解码，支持无限长1080P视频的高效编解码，并减少29%的推理时内存占用。

视频生成

视频Diffusion Transformer：基于视频DiT结构，通过Full Attention机制建模长时程时空依赖，生成高质量视频。采用Flow Matching方法进行噪声采样，确保模型快速收敛并提升训练效率。利用多语言umT5编码器对输入文本进行语义编码，并通过交叉注意力层将文本特征注入Transformer Block，实现细粒度语义对齐。

数据处理

四步数据清洗流程：在预训练阶段，从庞大但嘈杂的初始数据集中选取高质量且多样化的数据，重点关注基础维度、视觉质量和运动质量，逐步增加分辨率和视频时长，让模型在有限算力下得到充分训练。最终的SFT阶段进行严格的数据过滤，保障模型稳定收敛到高质量视频输出。

模型训练与推理优化

训练阶段：文本、视频编码模块采用DP和FSDP组合的分布式策略，DiT模块采用DP、FSDP、RingAttention、Ulysses混合的并行策略。使用Context Parallelism对sequence维度进行切分，并采用2DCP方案减少通信开销。同时，采用分层的显存优化策略和细粒度Gradient Checkpointing进一步优化显存。
推理阶段：采用FSDP和2D CP的组合方法进行模型切分和序列并行，使用step间cache和CFG cache的方法减少实际计算量，性能提升约61%。使用量化方法，如fp8gemm和FlashAttention3 INT8/FP8混合算子进行attention部分的8bit量化，端到端性能提升30%以上。

通义万相Wan2.1的性能评测

在权威评测集VBench中，万相以总分86.22%的成绩登上榜首位置，大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模型。

通义万相Wan2.1 的应用场景

内容创作：通义万相Wan2.1 可以快速生成高质量的短视频内容，支持多种艺术风格模板，如油画、赛博朋克等，帮助创作者提升创作效率和内容多样性，满足不同平台和受众的需求。
广告与营销：该模型能够根据品牌需求生成个性化的广告视频，支持动态字幕和特效生成，提升广告的吸引力和传播效果，为广告设计和短视频制作提供强大的创意支持。
教育培训：通义万相Wan2.1可以生成沉浸式教学视频，通过生动的视觉效果和动态演示，帮助学生更好地理解和掌握复杂概念，提升教学效果和学习体验。
影视制作：通义万相Wan2.1支持电影级运镜效果和复杂肢体动作的生成，能够精准模拟碰撞、反弹等物理现象，为影视特效和动画制作提供逼真的场景和动态效果，提升制作效率和视觉质量。
游戏与娱乐：该模型可用于生成沉浸式的虚拟场景和动画效果，支持实时场景渲染，为游戏开发和虚拟现实应用提供高效的视觉内容生成能力，增强用户体验。

如何体验通义万相Wan2.1？

通义万相Wan2.1已经在GitHub、Hugging Face、魔搭社区等平台开源，支持多种主流框架。无论是开发者还是研究者，都可以通过Gradio快速体验，或利用 xDiT 并行加速推理提升效率。

1、在线体验：

通义万相中文站：https://tongyi.aliyun.com/wanxiang/
通义万相国际站：https://wanxai.com

2、API服务：

阿里百炼平台：https://www.alibabacloud.com/zh/product/modelstudio

3、开源链接：

Huggingface：https://huggingface.co/Wan-AI
GitHub：https://github.com/Wan-Video/Wan2.1
魔搭社区：https://www.modelscope.cn/collections/tongyiwanxiang-Wan21-shipinshengcheng-67ec9b23fd8d4f

{{userData.name}}已认证

通义万相Wan2.1是什么？

通义万相Wan2.1的功能特点