Step-Video-T2V是什么?
Step-Video-T2V是阶跃星辰与吉利联合开源的一款高性能视频生成大模型,具备300亿参数量,能够生成540P分辨率的高质量视频。它支持复杂运动场景、精准镜头控制和生动人物生成,能够根据文本输入生成符合物理规律的视频。该模型在全球开源视频生成领域表现突出,适用于创意视频制作、动画制作和影视广告等场景,提供高质量的创意视频呈现。

Step-Video-T2V的主要特性
- 高性能生成:Step-Video-T2V模型拥有300亿参数,能够生成204帧、540P分辨率的视频,确保高质量的视频输出。
- 复杂运动控制:Step-Video-T2V能准确生成复杂运动场景,如芭蕾舞、空手道等,运动自然且符合物理规律。
- 精准镜头控制:Step-Video-T2V支持多种镜头运动(推、拉、摇、移、旋转、跟随等),可实现流畅的镜头切换和大幅度运镜。
- 生动人物生成:Step-Video-T2V生成的角色形象细腻、表情自然,五官、发型和皮肤纹理等细节更加真实。
- 语义理解与指令遵循:Step-Video-T2V具备强大的语义理解能力,能够根据文本指令生成准确的视频内容。
- 高质量创意呈现:Step-Video-T2V特别适用于创意视频制作,能够帮助创作者实现精准的创意表达和复杂场景的呈现。
Step-Video-T2V的性能评测
在Step-Video-T2V-Eval评测集上的评测中,Step-Video-T2V展示了优异的指令遵循、运动平滑性和物理合理性,生成的视频在多个类别(如运动、人物、风景等)中都展现出高质量的视觉效果,远超其他开源视频生成模型,特别是在复杂运动和场景生成方面具有显著优势。

Step-Video-T2V的应用场景
- 创意视频制作:为视频创作者提供强大的工具,帮助生成复杂场景和精细化的创意视频内容,适用于广告制作、短视频创作等。
- 动画与影视制作:在动画和影视行业中,可以用于生成高质量的虚拟角色、动态场景和复杂动作,提升创作效率。
- 虚拟现实(VR)与增强现实(AR):可用于创建沉浸式的虚拟环境和互动视频,适应VR/AR应用中的动态场景生成需求。
- 游戏开发:在游戏中,Step-Video-T2V能够生成高质量的过场动画和角色动作,增强游戏的视觉体验。
- 教育与培训:用于生成教学视频、模拟实验和场景再现,提供生动直观的学习内容。
如何使用Step-Video-T2V?
1、在线体验:
目前Step-Video-T2V已经上线到跃问网页端(https://yuewen.cn/videos)和跃问 App 上,感兴趣可以去体验下 。
2、开源资源:
- GitHub:https://github.com/stepfun-ai/Step-Video-T2V
- Hugging Face:https://huggingface.co/stepfun-ai/stepvideo-t2v
- 技术报告:https://arxiv.org/abs/2502.10248
