-
Qwen2.5-VL:阿里通义千问推出的开源AI视觉语言模型
Qwen2.5-VL是由阿里通义千问推出的一款视觉语言理解模型,结合了图像、视频和文本处理能力。它能够精准识别图像中的物体、提取视频关键事件,并执行动态推理任务。通过物体定位、结构化数据输出和多模态理解,Qwen2.5-VL广泛适用于安全监控、电子商务、文档解析等领域。- 11.2k
- 0
-
K1.5:Kimi 最新推出的多模态思考模型
Kimi k1.5 是Kimi推出的最新多模态思考模型,专为解决复杂的推理任务而设计。作为一款集数学推理、代码生成、视觉推理和多模态数据分析于一体的高性能AI模型,k1.5在推理速度和准确性上取得了突破性进展,标志着AI推理技术的进一步提升。- 25.8k
- 0
-
K1:Kimi 推出的全新一代视觉思考模型
K1 是由 Kimi 发布的全新一代视觉思考模型,k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。- 7k
- 0
-
PaliGemma 2:Google 推出的新一代AI视觉语言模型
PaliGemma 2 是 Google 推出的最新一代AI视觉语言模型,它在前代基础上集成了视觉处理能力,能够识别、理解并与视觉输入互动,是一款支持简单微调的强大 AI 模型。- 2.8k
- 0
-
蚂蚁集团CodeFuse-VLM开源,支持多模态多任务预训练/微调
CodeFuse-VLM是一个支持多种视觉模型和语言大模型的框架,用户可以根据自己的需求搭配不同的Vision Encoder和LLM。- 1.1k
- 0