Skywork R1V-昆仑万维开源的多模态视觉推理模型

2025年3月18日，昆仑万维正式开源了其首款多模态视觉思维链推理模型 Skywork R1V，标志着多模态思考新时代的到来。Skywork R1V 是一款专注于通过多步逻辑推理解决复杂视觉任务的模型，能够处理视觉逻辑推理、数学问题、科学现象分析等多种任务。

核心技术亮点

文本推理能力的多模态高效迁移：通过视觉投影器，无需重新训练语言模型和视觉编码器，即可将文本推理能力高效迁移到视觉任务中，同时保留了强大的文本推理能力。
多模态混合式训练：结合迭代监督微调（Iterative SFT）和强化学习（GRPO），分阶段对齐视觉和文本模态的表征，显著提升跨模态任务的表现。
自适应长度思维链蒸馏：动态优化模型推理过程，避免“过度思考”，提升推理效率和质量。

性能表现

Skywork R1V 在多个权威基准测试中表现出色，例如在 MATH500 和 AIME 测试中分别取得了 94.0 和 72.0 的高分，明显领先于行业内众多主流模型。在视觉推理基准测试中，如 MMNU 和 MathVista，分别取得了 69 和 67.5 的优异成绩，与更大规模的闭源模型相当。