全部标签

视觉模型

Qwen2.5-VL：阿里通义千问推出的开源AI视觉语言模型

Qwen2.5-VL是由阿里通义千问推出的一款视觉语言理解模型，结合了图像、视频和文本处理能力。它能够精准识别图像中的物体、提取视频关键事件，并执行动态推理任务。通过物体定位、结构化数据输出和多模态理解，Qwen2.5-VL广泛适用于安全监控、电子商务、文档解析等领域。
AI训练模型
- 11.2k
- 0
AIHub1月28日
K1.5：Kimi 最新推出的多模态思考模型

Kimi k1.5 是Kimi推出的最新多模态思考模型，专为解决复杂的推理任务而设计。作为一款集数学推理、代码生成、视觉推理和多模态数据分析于一体的高性能AI模型，k1.5在推理速度和准确性上取得了突破性进展，标志着AI推理技术的进一步提升。
AI训练模型
- 25.8k
- 0
AIHub1月20日
K1：Kimi 推出的全新一代视觉思考模型

K1 是由 Kimi 发布的全新一代视觉思考模型，k1 模型基于强化学习技术打造，原生支持端到端图像理解和思维链技术，并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中，初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。
AI工具
- 7k
- 0
AIHub24年12月16日
PaliGemma 2：Google 推出的新一代AI视觉语言模型

PaliGemma 2 是 Google 推出的最新一代AI视觉语言模型，它在前代基础上集成了视觉处理能力，能够识别、理解并与视觉输入互动，是一款支持简单微调的强大 AI 模型。
AI训练模型
- 2.8k
- 0
AIHub24年12月6日
蚂蚁集团CodeFuse-VLM开源，支持多模态多任务预训练/微调

CodeFuse-VLM是一个支持多种视觉模型和语言大模型的框架，用户可以根据自己的需求搭配不同的Vision Encoder和LLM。
AI资讯
- 1.1k
- 0
AIHub24年2月7日