全部标签

开源模型

Skywork R1V：昆仑万维开源的多模态视觉思维链推理模型

Skywork R1V 是昆仑万维开源的多模态视觉思维链推理模型，专注于通过多步逻辑推理解决复杂的视觉任务。它结合了强大的文本推理能力和视觉理解能力，能够处理视觉逻辑推理、数学问题、科学现象分析等任务。
AI训练模型
- 515
- 0
AIHub3月18日
Gemma 3：Google 推出的轻量级高性能开源模型，支持单个GPU运行

Gemma 3 是 Google 推出的轻量级、高性能开源模型，支持多种尺寸（1B、4B、12B 和 27B），专为单 GPU 或 TPU 设计。它支持 140 多种语言，具备高级文本和视觉推理能力，配备 128k-token 上下文窗口和函数调用功能，支持复杂任务处理。Gemma 3 提供量化版本，优化性能，降低计算需求，并配备安全特性。它无缝集成多种开发工具，支持灵活部署，助力开发者快速构建高…
AI训练模型
- 3.8k
- 0
AIHub3月13日
QwQ-32B：阿里云开源的最新AI推理模型，更小尺寸，消费级显卡即可部署

QwQ-32B 是阿里云开源的320亿参数推理模型，具备强大的数学、代码和通用推理能力，性能比肩全球顶尖开源模型。它支持消费级显卡部署，降低硬件门槛，同时集成智能体能力，可灵活调整推理过程。采用Apache 2.0协议开源，用户可免费下载、商用和定制化开发，推动AI技术的广泛应用。
AI训练模型
- 6.6k
- 0
AIHub3月6日
SpeciesNet - 谷歌开源的AI模型，助力野生动物识别和保护

SpeciesNet是谷歌开源的一款AI模型，专为识别野生动物而设计。它通过分析相机陷阱拍摄的照片，能够将图像分类为超过2000个标签，涵盖动物物种、分类群和非动物对象。模型基于6500万张图像训练，具备高准确性和广泛适用性，采用Apache 2.0开源许可，助力生物多样性研究和保护。
AI训练模型
- 457
- 0
AIHub3月4日
SkyReels-V1：昆仑万维开源的AI短剧创作视频生成模型

SkyReels-V1 是昆仑万维开源的中国首个面向AI短剧创作的视频生成模型，专注于影视级人物表演、表情生成和动作模拟。它能够精细控制人物的口型、表情和肢体动作，提供33种人物微表情和400多种自然动作组合，模拟真实的情感表达。
AI训练模型
- 3.7k
- 0
AIHub2月18日
Qwen2.5-VL：阿里通义千问推出的开源AI视觉语言模型

Qwen2.5-VL是由阿里通义千问推出的一款视觉语言理解模型，结合了图像、视频和文本处理能力。它能够精准识别图像中的物体、提取视频关键事件，并执行动态推理任务。通过物体定位、结构化数据输出和多模态理解，Qwen2.5-VL广泛适用于安全监控、电子商务、文档解析等领域。
AI训练模型
- 11.2k
- 0
AIHub1月28日
Qwen2.5-1M：阿里推出的开源AI模型，支持100万Token上下文

Qwen2.5-1M是阿里巴巴Qwen团队发布的支持100万Token上下文的开源语言模型系列，包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。它们结合了基于vLLM的推理框架和稀疏注意力机制，显著提升了处理长文本时的速度和效率。该模型在长上下文任务中表现优异，特别是在密钥检索等复杂任务中，超越了之前的Qwen2.5-Turbo和GPT-4o-mi…
AI训练模型
- 3.3k
- 0
AIHub1月27日
混元3D 2.0：腾讯混元发布的3D开源模型2.0版本

混元3D 2.0是腾讯混元推出的3D开源大模型2.0版本，旨在通过先进的AI技术，快速生成高质量的3D模型。对比1.0版本，2.0版本也依然同时支持文、图生3D的能力，并在生成效果上得到显著提升，在几何结构上更加精细，纹理色彩更加丰富，支持更精细、更逼真的3D内容创作。
AI训练模型
- 15.7k
- 0
AIHub1月21日
MiniMax-01：MiniMax推出的开源AI模型，400万超长上下文，性能比肩GPT-4o

MiniMax-01是一个先进的大型语言模型系列，包括MiniMax-Text-01和MiniMax-VL-01。这些模型通过闪电注意力机制和混合专家架构，能够高效处理长达400万个token的上下文窗口，在多个标准和内部基准测试中表现出色，特别是在长上下文处理方面显著优于其他顶级模型。
AI训练模型
- 19.1k
- 0
AIHub1月15日
Sky-T1: NovaSky推出的高性价比推理模型，训练成本不到450美元

Sky-T1是由UC Berkeley的NovaSky团队开发的推理模型，其性能与O1-preview模型相当，特别是在推理和编码基准测试中表现出色。Sky-T1-32B-Preview的训练成本不到450美元，展示了以低成本和高效的方式复制高级推理能力的可能性。所有代码和模型权重都是开源的，旨在促进学术和开源社区的参与和进步。
AI训练模型
- 1.7k
- 0
AIHub1月13日
CogAgent-9B：智谱AI推出的专用于Agent任务的开源基座模型

CogAgent-9B是智谱AI推出的最新开源基座模型，基于 GLM-4V-9B 训练而成的专用Agent任务模型。该模型仅需屏幕截图作为输入（无需HTML等文本表征），便能根据用户指定的任意任务，结合历史操作，预测下一步的GUI操作。得益于屏幕截图和GUI操作的普适性，CogAgent 可广泛应用于各类基于GUI交互的场景，如个人电脑、手机、车机设备等。　
AI训练模型
- 2.2k
- 0
AIHub24年12月26日
阿里通义发布最强开源多模态推理模型QVQ

2024年12月25日，阿里云通义千问正式发布全球首个开源多模态推理模型 QVQ-72B-Preview。该模型以超强的视觉理解与推理能力引领行业，特别在解决数学、物理和科学等复杂问题上表现尤为出色。目前，开发者可通过魔搭社区和 HuggingFace 平台直接体验。
AI资讯
- 1.1k
- 0
AIHub24年12月26日
QVQ-72B-Preview：阿里通义推出的开源多模态推理模型

QVQ-72B-Preview 是由阿里通义团队开发的一款多模态视觉推理模型，基于 Qwen2-VL-72B 微调，拥有 73.4B 参数，专注于复杂的视觉理解和跨学科推理任务。QVQ不但能感知更准确的视觉内容，并据此作出更细致的分析推理，还会质疑自身假设，仔细审视其推理过程的每一步，经过深思熟虑后给出最后结论。
AI训练模型
- 3.2k
- 0
AIHub24年12月26日
PaliGemma 2：Google 推出的新一代AI视觉语言模型

PaliGemma 2 是 Google 推出的最新一代AI视觉语言模型，它在前代基础上集成了视觉处理能力，能够识别、理解并与视觉输入互动，是一款支持简单微调的强大 AI 模型。
AI训练模型
- 2.8k
- 0
AIHub24年12月6日
FLUX.1 Tools：Black Forest Labs 推出的 AI 图像处理模型套件，实现精准的图像编辑和生成

Flux.1 Tools 是由 Black Forest Labs 推出的 AI 图像处理模型全家桶，旨在为FLUX.1基础文本转图像模型添加控制和可操纵性，从而实现对真实图像和生成图像的修改和重新创建
AI训练模型
- 1.7k
- 0
AIHub24年11月25日
Pixtral Large：Mistral AI推出的开源千亿参数多模态 AI 模型

Pixtral Large 是由 Mistral AI 推出的 1240 亿参数开源多模态模型。它是基于 Mistral Large 2 构建的第二代多模态模型，能够同时处理文本和图像数据，专为复杂推理、文档分析和视觉理解任务设计。它在保持顶尖文本理解能力的同时，显著增强了图像相关任务的表现，适用于研究、教育和商业场景。
AI训练模型
- 2.2k
- 0
AIHub24年11月20日
腾讯混元3D-1.0：腾讯开源的3D模型，支持文本或图像生成3D模型

腾讯混元3D-1.0 是由腾讯推出的首个同时支持文生和图生的3D开源模型，支持从文本或图像生成3D模型。该模型通过双阶段生成方法快速生成3D资产，仅需约10秒即可完成3D对象的生成。
3D内容生成
- 4.7k
- 0
AIHub24年11月6日
Hunyuan-Large：腾讯最新开源的MoE大模型，效果业界领先

由腾讯开发的开源业界参数规模最大、效果最好的transformer结构的 MoE 模型，在公开benchmark、多轮对话、高质量文本生成、数学逻辑、代码创作等多个任务上具有优异效果
AI训练模型
- 2.1k
- 0
AIHub24年11月6日
Mochi 1：Genmo 推出的最新开源视频生成模型

Mochi 1 是 Genmo 推出的最新开源视频生成模型，被认为是当前最先进的开放视频生成系统之一。Mochi 1 专注于生成高保真动作视频，同时高度遵循文本提示。
AI训练模型
- 2k
- 0
AIHub24年10月23日
Stable Diffusion 3.5：Stability AI 开源的新一代AI图像生成模型

Stable Diffusion 3.5 是由 Stability AI 推出的最新一代图像生成模型，专为提供更高质量、快速生成、多样化输出的图像生成体验而设计。
AI训练模型
- 5.7k
- 0
AIHub24年10月23日
Emu3：智源推出的原生多模态世界模型，可实现图像、文本、视频的统一理解和生成

Emu3是智源研究院发布的原生多模态世界模型，该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成
AI训练模型
- 2k
- 0
AIHub24年10月22日
Qwen2.5：阿里巴巴最新开源的系列AI大模型

Qwen2.5是什么？ Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。目前，大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力。 Qwen2.5的主要特点 …
AI训练模型
- 8.1k
- 0
AIHub24年9月19日
Qwen2-VL：阿里最新开源的视觉多模态大语言模型

Qwen2-VL是由阿里巴巴最新开源的视觉多模态大语言模型系列，专注于视觉语言的理解和处理。该模型能够处理不同分辨率和比例的图像，并具备对20分钟以上视频内容的理解能力。测试数据显示，其72B模型在大多数指标上超过了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型，成为目前最强的多模态模型之一。
AI训练模型
- 5.6k
- 0
AIHub24年8月30日
FLUX.1：Stable Diffusion原班人马推出的开源AI图像生成模型

FLUX.1是由Stable Diffusion原班人马推出的开源图像生成模型，在文字生成、复杂指令遵循和人手生成上具备优势。FLUX.1包含专业版、开发者版、快速版三种模型，其中前两款模型击败SD3-Ultra等主流模型，较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。
AI训练模型
- 8.1k
- 0
AIHub24年8月2日

{{userData.name}}已认证

开源模型