通义万相Wan2.1是什么?
通义万相Wan2.1是阿里巴巴推出的开源视频生成大模型,专注于高质量视频生成,一共包含4个模型,文生视频模型有1.3B和14B两个规格。图生视频模型都是14B,分辨率一个480P一个720P。Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,无论是创作者、开发者还是企业用户,都可以根据自己的需求选择合适的模型和功能,轻松实现高质量的视频生成。
同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。
在权威评测集VBench中,万相以总分86.22%的成绩登上榜首位置,大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模型。

通义万相Wan2.1的功能特点
- 高质量视频生成:通义万相Wan2.1能够生成逼真的视觉效果,严格遵循物理规则,提升画面的像素质量和真实感。
- 复杂运动处理:通义万相Wan2.1擅长处理大规模肢体运动和复杂旋转,如花样滑冰、游泳等场景,保持身体协调性和真实运动轨迹。
- 多语言文字特效:通义万相Wan2.1支持中英文文字特效,满足广告设计和短视频制作等行业的需求。
- 高效编解码技术:通义万相Wan2.1采用自研的 VAE(变分自编码器)和 DiT(去噪扩散 Transformer)架构,支持无限长 1080P 视频的高效编解码。
- 物理规律还原:通义万相Wan2.1精准模拟现实世界中的物理规律,如碰撞、反弹等,进一步提升画面逼真度。
- 超长上下文训练:通义万相Wan2.1支持超长上下文,确保文本指令与视频生成的精准对应,提升生成效率。
通义万相Wan2.1的技术原理
通义万相Wan2.1基于主流的DiT和线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的3D因果VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,这些创新共同提升了模型的最终性能表现。
视频编码与解码
- 自研高效的3D因果VAE:基于3D因果VAE模块,实现256倍无损视频隐空间压缩,通过特征缓存机制分块处理视频,避免对长视频进行端到端编解码,支持无限长1080P视频的高效编解码,并减少29%的推理时内存占用。
视频生成
- 视频Diffusion Transformer:基于视频DiT结构,通过Full Attention机制建模长时程时空依赖,生成高质量视频。采用Flow Matching方法进行噪声采样,确保模型快速收敛并提升训练效率。利用多语言umT5编码器对输入文本进行语义编码,并通过交叉注意力层将文本特征注入Transformer Block,实现细粒度语义对齐。
数据处理
- 四步数据清洗流程:在预训练阶段,从庞大但嘈杂的初始数据集中选取高质量且多样化的数据,重点关注基础维度、视觉质量和运动质量,逐步增加分辨率和视频时长,让模型在有限算力下得到充分训练。最终的SFT阶段进行严格的数据过滤,保障模型稳定收敛到高质量视频输出。
模型训练与推理优化
- 训练阶段:文本、视频编码模块采用DP和FSDP组合的分布式策略,DiT模块采用DP、FSDP、RingAttention、Ulysses混合的并行策略。使用Context Parallelism对sequence维度进行切分,并采用2DCP方案减少通信开销。同时,采用分层的显存优化策略和细粒度Gradient Checkpointing进一步优化显存。
- 推理阶段:采用FSDP和2D CP的组合方法进行模型切分和序列并行,使用step间cache和CFG cache的方法减少实际计算量,性能提升约61%。使用量化方法,如fp8gemm和FlashAttention3 INT8/FP8混合算子进行attention部分的8bit量化,端到端性能提升30%以上。
通义万相Wan2.1的性能评测
在权威评测集VBench中,万相以总分86.22%的成绩登上榜首位置,大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模型。

通义万相Wan2.1 的应用场景
- 内容创作:通义万相Wan2.1 可以快速生成高质量的短视频内容,支持多种艺术风格模板,如油画、赛博朋克等,帮助创作者提升创作效率和内容多样性,满足不同平台和受众的需求。
- 广告与营销:该模型能够根据品牌需求生成个性化的广告视频,支持动态字幕和特效生成,提升广告的吸引力和传播效果,为广告设计和短视频制作提供强大的创意支持。
- 教育培训:通义万相Wan2.1可以生成沉浸式教学视频,通过生动的视觉效果和动态演示,帮助学生更好地理解和掌握复杂概念,提升教学效果和学习体验。
- 影视制作:通义万相Wan2.1支持电影级运镜效果和复杂肢体动作的生成,能够精准模拟碰撞、反弹等物理现象,为影视特效和动画制作提供逼真的场景和动态效果,提升制作效率和视觉质量。
- 游戏与娱乐:该模型可用于生成沉浸式的虚拟场景和动画效果,支持实时场景渲染,为游戏开发和虚拟现实应用提供高效的视觉内容生成能力,增强用户体验。
如何体验通义万相Wan2.1?
通义万相Wan2.1已经在GitHub、Hugging Face、魔搭社区等平台开源,支持多种主流框架。无论是开发者还是研究者,都可以通过Gradio快速体验,或利用 xDiT 并行加速推理提升效率。
1、在线体验:
- 通义万相中文站:https://tongyi.aliyun.com/wanxiang/
- 通义万相国际站:https://wanxai.com
2、API服务:
3、开源链接:
- Huggingface:https://huggingface.co/Wan-AI
- GitHub:https://github.com/Wan-Video/Wan2.1
- 魔搭社区:https://www.modelscope.cn/collections/tongyiwanxiang-Wan21-shipinshengcheng-67ec9b23fd8d4f
