2025年3月18日,昆仑万维正式开源了其首款多模态视觉思维链推理模型 Skywork R1V,标志着多模态思考新时代的到来。Skywork R1V 是一款专注于通过多步逻辑推理解决复杂视觉任务的模型,能够处理视觉逻辑推理、数学问题、科学现象分析等多种任务。

核心技术亮点
- 文本推理能力的多模态高效迁移:通过视觉投影器,无需重新训练语言模型和视觉编码器,即可将文本推理能力高效迁移到视觉任务中,同时保留了强大的文本推理能力。
- 多模态混合式训练:结合迭代监督微调(Iterative SFT)和强化学习(GRPO),分阶段对齐视觉和文本模态的表征,显著提升跨模态任务的表现。
- 自适应长度思维链蒸馏:动态优化模型推理过程,避免“过度思考”,提升推理效率和质量。
性能表现
Skywork R1V 在多个权威基准测试中表现出色,例如在 MATH500 和 AIME 测试中分别取得了 94.0 和 72.0 的高分,明显领先于行业内众多主流模型。在视觉推理基准测试中,如 MMNU 和 MathVista,分别取得了 69 和 67.5 的优异成绩,与更大规模的闭源模型相当。
开源信息
Skywork R1V 的模型权重和技术报告已全面开源,方便研究人员和开发者进行二次开发和应用探索。开源链接如下:
- Hugging Face:https://huggingface.co/Skywork/Skywork-R1V-38B
- GitHub:https://github.com/SkyworkAI/Skywork-R1V
- 技术报告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
