全部标签

AI模型

DeepSeek-V3.1-Terminus

DeepSeek-V3.1-Terminus是DeepSeek开源LLM优化版，强化语言一致性、Code/Search Agent性能，提供稳定高效代理任务解决方案
LongCat-Flash-Thinking：美团 LongCat 团队开源的推理AI模型

LongCat-Flash-Thinking 是美团开源的大推理模型，具备高效推理与工具调用能力，在数学、逻辑和编程任务中表现领先，支持长链推理与多框架部署。
Grok 4 Fast：xAI 最新发布的低成本高效推理模型，支持 200 万 token 长上下文

Grok 4 Fast 是 xAI 最新发布的低成本高效推理模型，支持 2M token 长上下文、工具浏览能力与统一架构，在多个 benchmark 中性能与 Grok 4 近似但成本大幅降低，适合企业与开发者部署使用。
Qwen3-ASR-Flash：阿里通义千问最新推出的语音识别模型

Qwen3-ASR-Flash 是通义千问系列最新语音识别模型，基于 Qwen3 底座与千万小时级 ASR 训练，支持 11 种语言与多方言，提供上下文定制与歌声识别，具备语种识别、非人声拒识与强鲁棒性，适配多噪声与长难句场景。
Step-Audio-2-mini：阶跃星辰开源的端到端语音大模型

Step-Audio 2 mini 是阶跃星辰发布的开源端到端语音大模型，采用统一架构实现语音理解、推理与生成，支持语音识别、跨语种翻译、情感解析与自然对话。
LongCat-Flash-Chat：美团推出的开源大语言模型

LongCat-Flash-Chat 是美团开源的 5600 亿参数 MoE 大语言模型，在 LongCat-Flash 基础上对齐优化，支持多轮对话、长上下文和 Agent 应用。
Nano Banana：Google 最新推出的 AI 图像生成与编辑模型

Nano Banana 是 Google DeepMind 推出的图像生成与编辑 AI 模型，支持从文本生成高质量图像、自动融合多图与风格编辑，具备多轮推理与上下文一致性，适合创作者、设计师与开发者使用。
Gemini 2.5 Flash Image：Google 最新推出的 AI 图像生成与编辑模型

Gemini 2.5 Flash Image 是 Google DeepMind 推出的图像生成与编辑 AI 模型，支持从文本生成高质量图像、自动融合多图与风格编辑，具备多轮推理与上下文一致性，适合创作者、设计师与开发者使用。
DeepSeek-V3.1：DeepSeek最新开源的AI大模型

DeepSeek-V3.1 是 DeepSeek 最新开源的AI大模型，支持“思考/非思考”混合推理架构，用户可自由切换交互模式。新版本在推理速度、工具调用与 Agent 多步骤任务处理上全面提升，并支持高达 128K 上下文输入。
Qwen-Image-Edit：阿里通义千问开源的图像编辑模型

Qwen-Image-Edit 是阿里通义千问团队基于 20B 参数的 Qwen-Image 模型深度训练出的图像编辑模型，其特点是同时具备“语义理解”与“外观处理”双重控制能力。它不仅支持低级的像素级视觉编辑（如添加/删除元素、部分修改），还支持高级的语义级编辑（如IP 创作、物体旋转、风格迁移），并且具备精准的中英文文本编辑能力，可在保持原字体/风格的基础上进行文字增、删、改。
Hunyuan-GameCraft：腾讯混元等开源的高动态交互式游戏视频生成框架

Hunyuan-GameCraft 是由腾讯混元团队与华中科技大学联合推出的开源交互式游戏视频生成框架，基于HunyuanVideo底模，只需输入一张图 + 文字描述+动作指令（按键盘方向键）就能生成高动态、分钟级长视频
Baichuan-M2：百川智能开源的医疗增强推理大模型

Baichuan-M2-32B 是百川智能推出的医疗增强推理模型，专为真实世界的医疗推理任务设计。该模型基于 Qwen2.5-32B 基座，通过创新的大型验证器系统（Large Verifier System）从真实世界的医疗问题出发，进行医疗领域后训练对齐，在保持模型通用能力的同时，实现了医疗效果的突破性提升。
Matrix-Game 2.0：昆仑万维开源的交互式AI世界模型

Matrix-Game 2.0 是昆仑万维发布的国产开源交互式世界模型，能够以 25FPS 实时生成分钟级长交互视频，并在不同风格与环境下保持良好的泛化与物理一致性。它面向游戏开发、虚拟现实与影视创作等应用，旨在为虚拟世界构建提供可落地的生成式基座，推动具身智能与空间智能研究。
Skywork UniPic 2.0：昆仑万维开源的统一多模态生成与编辑模型

UniPic 2.0 是 Skywork 推出的统一多模态模型，基于 SD3.5-Medium 的 2B DiT，结合“在线强化学习+双任务渐进强化”，在生成与编辑上优于同级开源模型，并扩展为理解-生成-编辑一体的统一模型，提供技术报告、代码与权重。
SkyReels-A3：昆仑万维推出的音频驱动人像视频生成模型

SkyReels-A3是昆仑万维新发布的音频驱动任意时长人像视频模型，一句话照片+声音即可让静态人像开口说话、唱歌或带货，支持分钟级长视频、8种运镜控制，效果超越当前开源/闭源方案，零门槛在线可用。
GLM-4.5V：智谱开源的多模态视觉推理大模型

GLM-4.5V 是智谱基于 GLM-4.5-Air 文本基座构建的开源视觉-语言模型，面向图像、视频、文档与 GUI 屏幕等全场景的多模态推理与理解。
GPT-OSS：OpenAI开源的大语言模型，支持本地部署与高效推理

GPT-OSS是 OpenAI 发布的开源权重大语言模型系列，包含 20B 与 120B 两个版本，支持原生 128K tokens 长上下文、MoE 架构高效推理、微调与智能体功能，适合本地部署与企业级生成式应用，采用 Apache 2.0 许可协议。
Qwen-Image：阿里通义千问推出的图像生成基础模型

Qwen-Image 是通义千问系列的图像生成基础模型，具备卓越的文本渲染和图像编辑能力，支持多种艺术风格与复杂场景，广泛应用于海报、PPT及创意设计，推动视觉内容创作发展。
Step 3：阶跃星辰开源的多模态推理模型

Step 3 是阶跃星辰团队最新推出并开源的多模态推理模型，采用 MoE 架构，总参数量 321B，激活参数量 38B，上下文长度64k，拥有强大的视觉感知和复杂推理能力，可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析，以及日常生活中的各类视觉分析问题。
Qwen3-Coder-Flash：阿里通义千问开源的AI编程模型

Qwen3-Coder-Flash 是阿里通义开源的 30B 编程模型，支持超长上下文，函数调用优化，性能接近主流闭源大模型。
Wan2.2 - 阿里通义开源的视频和图像生成模型

Wan2.2 是由阿里通义大模型团队发布的开源视频生成模型，专为电影级视觉控制和高质量视频创作设计。它通过混合专家（MoE）架构，实现了对电影镜头语言的深度理解和还原，支持多维度的视觉呈现，如光影、色彩和构图。
GLM-4.5：智谱AI推出的新一代开源旗舰AI模型

GLM-4.5 是由智谱 AI 推出的开源 SOTA 模型，专为智能体应用打造，具备卓越的推理、代码生成和智能体能力。采用混合专家架构，提供思考模式和非思考模式，满足复杂任务和即时响应需求。
Qwen-MT：阿里通义千问推出的机器翻译模型，支持92种语言互译

Qwen‑MT 是阿里云通义千问团队基于 Qwen3 开发的机器翻译大模型，采用轻量级 MoE 架构，支持 92 种官方语言及方言互译。
Qwen3-Coder：阿里通义千问推出的代码模型，具备卓越的代码生成和 Agent 能力

Qwen3-Coder 是阿里巴巴通义千问团队发布的最新代码模型，具备卓越的代码生成和 Agent 能力。它拥有多个尺寸，其中最强大的版本是 Qwen3-Coder-480B-A35B-Instruct，这是一个 480B 参数激活 35B 参数的 MoE 模型，原生支持 256K token 的上下文，并可通过 YaRN 扩展到 1M token。
Kimi K2：月之暗面开源的万亿参数 MoE 架构基础模型

Kimi K2 是月之暗面 Moonshot AI 推出的开源大型语言模型，采用 Mixture-of-Experts 架构，拥有总参数量达 1 万亿、32 B 激活参数，支持最长 128K 上下文长度，原生设计以实现“agentic intelligence”（自主任务执行与工具调用）。
AniSora - Bilibili开源的动漫视频生成模型，一键生成多种风格动漫视频镜头

AniSora是 Bilibili 推出的开源动漫视频生成模型，它支持一键生成多种动漫风格的视频镜头，包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜（MAD）等。
ThinkSound - 阿里通义开源的AI音频生成模型

ThinkSound 是阿里通义实验室开源的首个音频生成模型，能够像专业音效师一样理解画面内容并进行结构化推理，从而生成高保真、与视觉高度同步的空间音频，适用于影视、短视频、游戏等多种创作场景。
OmniGen2 - 智源研究院推出的开源多模态生成模型

OmniGen2是智源研究院推出的开源多模态生成模型，具备文本生成图像、图像编辑、上下文图像生成与视觉理解等核心能力。
Ovis-U1：阿里巴巴推出的统一的多模态理解与生成模型

Ovis-U1 是阿里巴巴国际化团队推出的统一多模态理解与生成模型，它拥有三十亿参数，融合了图像理解、文本到图像生成和图像编辑功能。
百度正式开源文心4.5系列模型

2025年6月30日，百度宣布文心4.5系列模型正式开源。此次开源包括10款不同规模的模型，其中包括参数量为47B和3B的混合专家（MoE）模型，以及0.3B的稠密参数模型。文心4.5的开源文件包括预训练权重和推理代码，已上传至Hugging Face、GitHub以及飞桨星河社区，供全球开发者使用。主要技术特点 1. 多模态混合专家模型预训练文心4.5通过联合训练文本和视觉两种模态来提高模型…
Qwen VLo - 阿里推出的多模态统一理解与生成模型

Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型，具备强大的图文双向交互能力。它不仅能精准理解图像内容，还能根据自然语言指令进行高质量的图像生成与编辑，支持风格迁移、背景更换、物体添加等多种操作
FLUX.1 Kontext [dev]：Black Forest Labs开源的图像编辑模型

FLUX.1 Kontext \[dev] 是 Black Forest Labs 推出的开源图像编辑模型，支持通过自然语言对图像进行局部修改，具备风格与角色一致性保持、多轮稳定编辑等能力。该模型基于 Flow Transformer 架构，编辑精度高、响应速度快，适合创作者、开发者和研究人员用于插画创作、视觉叙事和图像生成研究。
Hailuo 02：MiniMax最新推出的AI视频生成模型

Hailuo 02 是 MiniMax 稀宇科技最新推出的AI视频生成模型，支持生成高质量1080p视频，擅长处理复杂指令和物理表现，如体操场景。
MiniMax-M1：MiniMax开源的大规模混合架构推理模型

MiniMax-M1 是MiniMax（稀宇科技）推出的全球首个开源大规模混合架构推理模型，具备卓越的长上下文处理能力和高效的推理性能。其支持高达100万上下文输入和8万Token输出，采用闪电注意力机制，显著提升算力效率。同时，该模型在软件工程、长上下文理解等复杂场景中表现优异，性价比极高，且提供免费不限量使用和低价格API服务。
dots.llm1：小红书开源的 MoE 架构大语言模型

dots.llm1是小红书开源的 MoE 架构大语言模型，拥有 1420 亿参数，推理仅激活 140 亿，兼顾性能与效率。模型基于 11.2 万亿非合成高质量数据训练，支持中英文，具备 32K 长上下文处理能力，并开放中间训练 checkpoint，适合问答、内容生成、语义理解等多种应用场景。
Speech 02：MiniMax 推出的新一代语音TTS模型，支持高质量多语种语音合成

MiniMax-Speech-02 支持多语言、高拟真语音生成，广泛应用于配音制作、虚拟人、教育、语音定制与无障碍沟通等场景，助力个性化语音内容高效生成与全球化传播。
Wan2.1-VACE：阿里开源的AI视频生成和编辑模型

通义万相 Wan2.1-VACE是阿里巴巴开源的AI视频生成与编辑模型，单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。
Step1X-3D：阶跃星辰开源的3D大模型，支持生成高保真可控的3D内容

Step1X-3D 是由阶跃星辰正式发布并开源的一款3D大模型。该模型是继图像、视频、语音、音乐等模态后，阶跃星辰在多模态AI方向的最新成果，专注于生成高保真、可控的3D内容。
Seed1.5-VL：字节跳动推出的视觉-语言多模态基础模型

Seed1.5-VL 是字节跳动推出的视觉-语言多模态基础模型，结合图像编码器与200亿激活参数的大语言模型，具备出色的图像、视频理解与推理能力。在60项基准测试中获得38项SOTA，广泛应用于视频问答、图表理解、GUI智能体等任务，表现稳定、推理强大。
Matrix-Game：昆仑万维开源的交互式世界基础模型

Matrix-Game是由昆仑万维开源的交互式世界基础模型，能够生成完整可交互的游戏世界，能够对人类输入的操作指令进行正确响应，保留了游戏世界的空间结构与物理特性，画面也更加精致，超越了以往所有类似开源世界模型。