全部标签

AI训练模型

最新随机最多浏览

SkyReels-V2：昆仑万维开源的无限时长电影生成模型

SkyReels-V2 是由昆仑万维开源的一款视频生成大模型，首创“扩散强迫（Diffusion-forcing）”训练框架，具备生成高保真、连贯、长时长（30s 以上）的影视级视频的能力。模型融合了多模态大语言模型（MLLM）、强化学习、视频理解与扩散优化等多项技术，适用于故事生成、图像到视频（I2V）、运镜控制和多元素一致性生成等丰富场景。
InstantCharacter：腾讯混元开源的定制化图像生成插件，支持角色一致性生成

InstantCharacter 是腾讯混元开源的一个定制化图像生成插件，能够通过简单的文字描述和一张图片生成各种角色的图像。它实现了对开源文生图模型 Flux 的兼容，用户只需要提供一张图片和一句话的描述，就可以让角色以想要的姿势出现在任何场景中。
Gemini 2.5 Flash：Google 推出的首个完全混合推理模型

Gemini 2.5 Flash 是 Google 推出的首个完全混合推理模型，允许开发人员灵活控制模型的思考功能，可开启或关闭。它还支持设置思考预算，帮助开发者在质量、成本和延迟之间找到最佳平衡。即使关闭思考功能，模型仍能保持 2.0 Flash 的高速度，并进一步提升性能，兼具高效推理和成本效益。目前处于预览阶段，支持通过 API 在 Google AI Studio 和 Vertex AI …
豆包1.5·深度思考模型：火山引擎推出的AI推理模型

在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出，在AIME 2024、Codeforces、GPQA等多项权威基准上达到或接近业界第一梯队水平。支持128k上下文窗口，16k输出。
OpenAI o4-mini：OpenAI最新推出的经济高效的推理模型

o4-mini 是OpenAI 发布的一款高效推理模型，专为快速、低成本的任务设计。它在数学、编程和视觉任务上表现出色，尤其适合高吞吐量场景。o4-mini 能自主使用 ChatGPT 的工具，如搜索、文件分析和代码执行，以快速生成答案。它还支持多模态输入，能处理图像和文本，对话自然且相关。其性价比高，是处理复杂问题的理想选择。
OpenAI o3：OpenAI推出的最新推理模型，支持工具调用和图像理解

OpenAI o3 是 OpenAI 发布的最新推理模型，代表了其在智能推理领域的最高水平。它能够自主使用 ChatGPT 内的所有工具，包括网络搜索、文件分析、代码执行和图像生成。
Seedream 3.0：字节推出的双语AI图像生成模型，支持原生 2K 分辨率

Seedream 3.0 是豆包大模型团队推出的下一代全场景文生图模型，支持原生 2K 分辨率图像生成，并具有显著提升的文本渲染、图像美学、结构优化能力。
林龙大模型：中国林科院推出的国内首个林草行业大模型

林龙大模型是中国林科院推出的国内首个林草行业大模型，基于DeepSeek大模型构建。它专为林草行业设计，融合多模态数据与行业知识，具备高效处理时空数据、低资源适配、高扩展性等优势，可应用于树种识别、病虫害监测、生态系统评估等八大场景，助力林草行业智能化转型与高质量发展。
GPT-4.1：OpenAI 推出的新一代语言模型，支持百万上下文

GPT-4.1 是 OpenAI 推出的新一代语言模型，包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三个版本。它在编码能力、指令遵循和长文本处理等方面有显著提升，支持高达 100 万个 token 的上下文窗口。
SYMPLEX：北大推出的功能基因深度挖掘大模型

SYMPLEX 是由北京大学钱珑团队发布的功能基因深度挖掘大模型平台，专为生物制造和合成生物元件设计服务。平台结合大语言模型能力与结构化生物知识，能够从海量文献中自动提取与标注功能基因，并提供基因功能推荐、结构分析与知识图谱生成等功能，推动从序列到应用的基因资源发现。
Skywork-OR1：昆仑万维开源的数学代码推理系列模型

Skywork-OR1是由昆仑万维推出的开源高性能推理模型系列，该系列在同等参数规模下实现了业界领先的推理性能，进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时，Skywork-OR1全面开放、免费使用。
Kimi-VL：月之暗面开源的视觉语言模型

Kimi-VL 是由月之暗面推出的一款开源视觉语言模型（VLM），具备原生分辨率图像理解、多模态推理和128K长上下文处理能力。
LHM - 阿里通义开源的单张照片生成可驱动3D数字人模型

LHM 是阿里通义开源的单张照片生成可驱动 3D 数字人模型，具备高质量建模与动作还原能力。用户仅需上传一张照片，即可生成具备骨骼结构的 3D 人物，并可绑定跳舞、打篮球等复杂动作，实现流畅自然的动态表现。该模型适用于虚拟人制作、游戏角色生成、XR 场景构建等应用，具备开源可用、可部署、可交互的特点。
MagicColor：香港科技大学推出的多实例草图自动上色框架

基于扩散模型的多实例草图上色工具，支持上传参考图，实现多角色一致性自动上色，适用于动画与插画创作。
Llama 4：Meta 推出的新一代原生多模态开源大模型

Llama 4 是 Meta 发布的最新一代开源大模型，具备原生多模态能力，可处理文本和图像的联合输入，支持图文问答、多图理解等复杂任务。模型采用高效的 MoE（混合专家）架构，推理速度更快、成本更低，且上下文窗口长达 1000 万 tokens，远超同类模型。
Gen-4：Runway推出的新一代AI视频生成模型

Runway Gen-4 是由 Runway 推出的第四代视频生成模型，具备高度一致性、多视角控制、风格保持和镜头构图能力。该模型支持通过文字描述或图像参考，生成高质量、连续性强的视频内容。
QVQ-Max：阿里通义推出的视觉推理模型，能分析图片和视频内容

QVQ-Max 是阿里巴巴通义团队推出的AI视觉推理模型，能够分析图片和视频内容，进行推理和解决问题。它具备细致的观察能力，能识别图像中的关键元素，并结合背景知识进行深度推理。
Qwen2.5-Omni：阿里推出的新一代端到端多模态模型

Qwen2.5-Omni是阿里巴巴通义团队推出的一款全模态大语言模型。它能够处理多种输入形式，包括文本、音频、图像和视频，并生成相应的输出。
Mureka O1 - 昆仑万维推出的AI音乐推理大模型

Mureka O1是昆仑万维发布的全球首款音乐推理大模型，基于Mureka V6升级，引入CoT技术，支持纯音乐及10种语言创作，涵盖多种曲风和情感。用户可通过简单模式输入风格或高级模式输入歌词等创作。它还提供歌曲参考、音色克隆功能，支持API服务与模型微调。
Gemini 2.5 Pro：谷歌推出的最新多模态AI模型，具备高级推理能力

Gemini 2.5 Pro是谷歌推出的一款具备高级推理能力的人工智能模型，支持文本、图像、音频和视频等多种输入形式，上下文窗口达100万token。用户可以通过Google AI Studio和Gemini Advanced免费使用，Vertex AI集成即将推出
Qwen2.5-VL-32B-Instruct：阿里开源的最新多模态模型，主打视觉语言理解和推理

Qwen2.5-VL-32B-Instruct 是阿里开源的多模态大模型（32B参数），支持视觉+语言+数学推理，在图像理解（如地理特征识别、多轮视觉问答）和复杂数学推理（几何、数列等）方面表现突出。通过强化学习优化，其输出更符合人类偏好，回答更详细、结构化。
DeepSeek-V3-0324：深度求索推出的新版本DeepSeek V3模型

DeepSeek-V3-0324 是 DeepSeek 团队发布的小版本升级模型，参数约 660B，上下文长度 128K。该版本在推理任务、前端开发、中文写作、中文搜索等方面显著提升，特别是在数学、代码和百科知识评测中表现优异。
减单 - 安徽医科大学等推出的体重管理大模型智能助手

“减单”是由安徽医科大学联合中国科学技术大学附属第一医院和健康科技企业共同发布的体重管理大模型智能助手。它基于国内外多个AI大模型技术，结合超过40万名肥胖相关慢性疾病患者的管理数据训练而成，旨在借助AI技术提高减重的个性化干预质量和诊疗效率。
Step-Video-TI2V：阶跃星辰开源的AI图生视频模型

Step-Video-TI2V是阶跃星辰开源的AI图生视频模型，基于30B参数训练，支持生成102帧、5秒、540P分辨率的视频。它具备运动幅度和镜头运动可控性，适合动画和短视频制作，尤其在动漫效果上表现突出。
Stable Virtual Camera：Stability AI等推出的AI模型，2D图像轻松转3D视频

Stable Virtual Camera是由Stability AI推出的多视图扩散模型，能够将2D图像转化为具有真实深度和透视效果的3D视频。该模型支持用户自定义相机轨迹和多种动态路径，可从单个或多达32个输入图像生成3D视频，并支持多种宽高比和长达1000帧的长视频生成。
Skywork R1V：昆仑万维开源的多模态视觉思维链推理模型

Skywork R1V 是昆仑万维开源的多模态视觉思维链推理模型，专注于通过多步逻辑推理解决复杂的视觉任务。它结合了强大的文本推理能力和视觉理解能力，能够处理视觉逻辑推理、数学问题、科学现象分析等任务。
文心大模型X1：百度推出的新一代深度思考模型

文心大模型X1是百度发布的新一代深度思考模型，具备强大的理解、规划、反思和进化能力，支持多模态输入输出以及多种工具调用。它在中文知识问答、文学创作、复杂计算等方面表现出色，性能对标DeepSeek-R1，但API调用价格仅为一半。
文心大模型4.5：百度推出的新一代原生多模态基础大模型

文心大模型4.5是百度推出的新一代原生多模态基础大模型，通过多个模态联合建模实现协同优化，多模态理解能力优秀；具备更精进的语言能力，理解、生成、逻辑、记忆能力全面提升，去幻觉、逻辑推理、代码能力显著提升。
Gemma 3：Google 推出的轻量级高性能开源模型，支持单个GPU运行

Gemma 3 是 Google 推出的轻量级、高性能开源模型，支持多种尺寸（1B、4B、12B 和 27B），专为单 GPU 或 TPU 设计。它支持 140 多种语言，具备高级文本和视觉推理能力，配备 128k-token 上下文窗口和函数调用功能，支持复杂任务处理。Gemma 3 提供量化版本，优化性能，降低计算需求，并配备安全特性。它无缝集成多种开发工具，支持灵活部署，助力开发者快速构建高…
SeedFoley - 字节跳动推出的AI视频音效生成模型

SeedFoley 是字节跳动推出的端到端视频音效生成模型，通过融合时空视频特征和扩散生成模型，实现音效与视频的高度同步。它支持可变长度视频输入，可在音效准确性、同步性和匹配度上达到领先水平。SeedFoley 已上线即梦应用，用户可一键生成专业级音效，广泛应用于 AI 视频创作、Vlog、短片和游戏制作等场景，提升视频的沉浸感和专业感。
GO-1：智元推出的首个通用具身基座模型

GO-1是什么？ GO-1是智元机器人发布的通用具身基座大模型，采用ViLLA架构，结合视觉、语言、隐式动作和执行能力。它通过学习人类视频和少量样本泛化新任务，支持多机器人形态并持续进化。GO-1代表了具身智能向通用化、智能化发展的新阶段，预示着机器人将具备更广泛的应用潜力。 GO-1的主要特点 ViLLA架构：GO-1采用Vision-Language-Latent-Action (ViLLA)…
混元图生视频模型 - 腾讯开源的AI视频生成模型

混元图生视频模型是腾讯开源的一个图像转视频生成框架，能够将静态图像转换为生动的视频内容。用户只需上传一张图片并简单描述动态效果，即可生成五秒的短视频。它结合了先进的视频生成技术和多模态大语言模型，支持多种角色和场景的生成，包括写实视频、动漫角色和 CGI 角色等。
QwQ-32B：阿里云开源的最新AI推理模型，更小尺寸，消费级显卡即可部署

QwQ-32B 是阿里云开源的320亿参数推理模型，具备强大的数学、代码和通用推理能力，性能比肩全球顶尖开源模型。它支持消费级显卡部署，降低硬件门槛，同时集成智能体能力，可灵活调整推理过程。采用Apache 2.0协议开源，用户可免费下载、商用和定制化开发，推动AI技术的广泛应用。
SpeciesNet - 谷歌开源的AI模型，助力野生动物识别和保护

SpeciesNet是谷歌开源的一款AI模型，专为识别野生动物而设计。它通过分析相机陷阱拍摄的照片，能够将图像分类为超过2000个标签，涵盖动物物种、分类群和非动物对象。模型基于6500万张图像训练，具备高准确性和广泛适用性，采用Apache 2.0开源许可，助力生物多样性研究和保护。
CogView4 - 智谱推出的开源文生图模型，支持汉字生成

CogView4是北京智谱华章推出的开源文生图模型，支持中英双语输入，擅长生成含汉字图像。它在DPG-Bench测试中排名第一，性能卓越。具备任意分辨率生成和长提示词输入能力，技术领先，遵循Apache 2.0协议，适用于广告、短视频等创意领域。
GPT-4.5：OpenAI推出的最新大语言模型

GPT-4.5是OpenAI最新发布的大型语言模型，它通过无监督学习提升对世界的理解，减少幻觉，对话更自然，情商更高，尤其在写作、编程和创意任务中表现出色。同时，GPT-4.5在安全性上进行了优化，并通过API向开发者开放，支持多种功能调用。
混元Turbo S：腾讯混元推出的新一代快思考模型

Turbo S 是腾讯混元推出的新一代快思考模型，区别于需要“想一下再回答”的慢思考模型，能够实现“秒回”，更快速输出答案。
QwQ-Max-Preview：阿里通义千问推出的深度思考模型

QwQ-Max-Preview是阿里Qwen团队基于Qwen2.5-Max开发的推理模型预览版，擅长深度推理、数学、编程和AI智能体任务，未来将开源并推出正式版。
Claude 3.7 Sonnet：Anthropic 最新推出的混合推理AI模型

Claude 3.7 Sonnet 是 Anthropic 公司推出的一款先进的人工智能模型，具备强大的推理和编码能力。它结合了即时响应与深度思考模式，用户可通过 API 控制思考时间，以平衡速度和回答质量。此外，它在数学、物理、指令遵循和软件开发等任务上表现出色，尤其在编码和前端开发方面有显著提升。
通义万相Wan2.1- 阿里推出的开源视频生成大模型

通义万相Wan2.1是阿里巴巴推出的开源视频生成大模型，专注于从文本生成高质量图像和视频。Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势，无论是创作者、开发者还是企业用户，都可以根据自己的需求选择合适的模型和功能，轻松实现高质量的视频生成。

{{userData.name}}已认证

AI训练模型