全部标签

AI训练模型

GPT-4o mini：OpenAI最新推出的AI模型，更快更便宜更智能

GPT-4o mini是由OpenAI推出的一款高性价比小型模型，具有成本低、性能强、功能多样和安全可靠等特点。它在多项评测中表现优异，在 MMLU 上得分 82%，目前优于 GPT-4，比 GPT-3.5 Turbo 便宜 60% 以上。目前支持文本和视觉，未来将支持更多形式。
EchoMimicV2 - 蚂蚁推出的开源AI数字人模型，音频驱动人物动作生成逼真动态角色

EchoMimicV2 是蚂蚁集团开发的音频驱动的AI数字人生成模型，利用音频输入轻松驱动人物动作，打造超逼真、富有表现力的动态角色。
讯飞星火认知大模型

讯飞星火是科大讯飞发布的认知大模型，以中文为核心的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化，实现从提出、规划到解决问题的全流程闭环。
DCLM-7B：苹果最新推出的开源AI语言模型

DCLM-7B是苹果与合作伙伴一起推出的开源小型语言模型，全部开源，包括权重、训练代码和数据集。DCLM-7B性能优异，接近大型模型，采用decoder-only架构，上下文长度2048。DCLM在多个基准任务上性能出色，支持商业使用。
灵医大模型-百度发布的产业级医疗大模型

9 月 19 日消息，百度今日发布国内首个“产业级”医疗大模型 —— 灵医大模型，并面向大健康上下游产业开放灵医大模型测评、试用，推动医疗行业的数字化和智能化进程。
天镜大模型-国内首个零售金融大模型

“天镜”寓意大模型是人类智慧的镜像，“天镜”大模型汇集智慧、唤醒知识、众创价值和数字分身。在汇集智慧场景下，“天镜”可整合一线客服人员服务经验，实现一对多服务客户。在唤醒知识场景下，可解析专业金融文件，进行多文档查询和数据分析。
GLM-4-Flash：智谱AI推出的首个免费API服务，支持128K上下文

GLM-4-Flash是智谱AI推出的首个全面免费的API服务，旨在让AI技术惠及更广泛的用户群体。作为一款性能卓越的大语言模型，GLM-4-Flash在语义理解、数学计算、推理、代码生成和知识应用等多个领域表现出色，支持高达1500并发，能够满足大规模应用的需求。
Amazon Nova：亚马逊推出的新一代多模态AI大模型，覆盖文本、图像、视频

Amazon Nova 是亚马逊 AWS 推出的一款先进的生成式AI基础大模型，包括4款语言模型、1款图像模型和1款视频模型，Nova 的模型支持处理文本、图像和视频的输入与输出，提供前沿智能与行业领先的性价比。能够为不同行业提供高效、低成本的解决方案，支持语言理解、图像/视频生成以及多模态能力等任务。
MiniMax-01：MiniMax推出的开源AI模型，400万超长上下文，性能比肩GPT-4o

MiniMax-01是一个先进的大型语言模型系列，包括MiniMax-Text-01和MiniMax-VL-01。这些模型通过闪电注意力机制和混合专家架构，能够高效处理长达400万个token的上下文窗口，在多个标准和内部基准测试中表现出色，特别是在长上下文处理方面显著优于其他顶级模型。
k0-math：月之暗面推出的新一代数学推理模型

k0-math是月之暗面公司推出的首款推理能力强化模型，采用了全新的强化学习和思维链推理技术，通过模拟人脑的思考和反思过程，大幅提升了解决数学难题的能力，可以帮助用户完成更具挑战性的数学任务。
Step-Video-T2V：阶跃星辰推出的开源视频生成大模型

Step-Video-T2V是阶跃星辰与吉利联合开源的一款高性能视频生成大模型，具备300亿参数量，能够生成540P分辨率的高质量视频。它支持复杂运动场景、精准镜头控制和生动人物生成，能够根据文本输入生成符合物理规律的视频。
奇智孔明 AInnoGC-创新奇智发布的工业大模型

适合工业场景应用需求的基础大模型，支持Zero/Few - Shot In-Context Learning，支持客户私有化部署。
Qwen2.5-VL：阿里通义千问推出的开源AI视觉语言模型

Qwen2.5-VL是由阿里通义千问推出的一款视觉语言理解模型，结合了图像、视频和文本处理能力。它能够精准识别图像中的物体、提取视频关键事件，并执行动态推理任务。通过物体定位、结构化数据输出和多模态理解，Qwen2.5-VL广泛适用于安全监控、电子商务、文档解析等领域。
Baichuan4-Finance：百川智能发布的金融大模型，金融场景能力领先GPT-4o近20%

Baichuan4-Finance是百川智能推出的专注于金融领域的大模型。该模型通过融合超过100B+的高密度、高质量中英文金融数据，致力于优化核心金融业务场景，提供智能化升级的全面解决方案。其设计严格遵循合规与安全标准，旨在赋能全场景金融创新。
GO-1：智元推出的首个通用具身基座模型

GO-1是什么？ GO-1是智元机器人发布的通用具身基座大模型，采用ViLLA架构，结合视觉、语言、隐式动作和执行能力。它通过学习人类视频和少量样本泛化新任务，支持多机器人形态并持续进化。GO-1代表了具身智能向通用化、智能化发展的新阶段，预示着机器人将具备更广泛的应用潜力。 GO-1的主要特点 ViLLA架构：GO-1采用Vision-Language-Latent-Action (ViLLA)…
PandaGPT-多模态AI大模型

首个实现了跨六种模态（图像/视频、文本、音频、深度、thermal和IMU）执行指令遵循数据的基础模型。在没有明确多模态监督的情况下，PandaGPT展现出了强大的多模态能力。
PowerLawGLM-法律垂直AI大模型

"PowerLawGLM"是由幂律智能联合智谱AI发布的千亿参数级法律垂直大模型。这个模型专注于法律细分领域，针对中文法律场景的应用效果具有独特优势，具备丰富的法律知识和法律语言理解能力。
通义万相Wan2.1- 阿里推出的开源视频生成大模型

通义万相Wan2.1是阿里巴巴推出的开源视频生成大模型，专注于从文本生成高质量图像和视频。Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势，无论是创作者、开发者还是企业用户，都可以根据自己的需求选择合适的模型和功能，轻松实现高质量的视频生成。
Claude 3.7 Sonnet：Anthropic 最新推出的混合推理AI模型

Claude 3.7 Sonnet 是 Anthropic 公司推出的一款先进的人工智能模型，具备强大的推理和编码能力。它结合了即时响应与深度思考模式，用户可通过 API 控制思考时间，以平衡速度和回答质量。此外，它在数学、物理、指令遵循和软件开发等任务上表现出色，尤其在编码和前端开发方面有显著提升。
华为-盘古AI大模型

根据华为云官网消息，华为旗下的盘古系列AI大模型即将上线，该系列AI大模型中的NLP大模型、CV大模型、科学计算大模型（气象大模型）已经标记为即将上线状态。据悉，盘古大模型采用了深度学习和自然语言处理技术，并使用了大量的中文语料库进行训练。该模型拥有超过1千亿个参数，可以支持多种自然语言处理任务，包括文本生成、文本分类、问答系统等等。其中，盘古NLP大模型是被认为最接近人类中文理解能力的AI大…
Ferret：苹果发布的多模态大语言模型

Ferret是由苹果公司开发的一个端到端的机器学习语言模型。Ferret不仅可以准确识别图像并描述其内容，还能够识别和定位图像中的各种元素，无论你用怎样的方式描述图像内容，Ferret都能准确地在图像中找到并识别出来。
千帆大模型平台-百度推出的大模型与AI应用开发服务平台

一站式企业级大模型平台，提供先进的生成式AI生产及应用全流程开发工具链
Codestral-Mistral AI推出的AI代码生成模型

Codestral支持80多种编程语言，提供代码辅助功能和较大的上下文窗口，在性能表现上也表现出色。通过API端点和插件支持，Codestral可以灵活集成到各种开发环境中，满足不同开发者的需求。
DeepSeek-V3-0324：深度求索推出的新版本DeepSeek V3模型

DeepSeek-V3-0324 是 DeepSeek 团队发布的小版本升级模型，参数约 660B，上下文长度 128K。该版本在推理任务、前端开发、中文写作、中文搜索等方面显著提升，特别是在数学、代码和百科知识评测中表现优异。
灵医Bot：百度旗下医疗健康AI大模型

百度旗下“灵医智惠” 是百度推出的智慧医疗品牌，其核心产品为 “灵医Bot”，一个医疗健康大模型。
Llama 3-Meta最新推出的新一代开源大模型

Llama 3是一款由Meta推出的大型开源人工智能语言模型，Llama-3共有80亿、700亿两个参数版本，与Llama-2相比，Llama-3使用了15T tokens的训练数据，在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。
AudioPaLM：谷歌语音理解和生成AI大模型

AudioPaLM 是一个大型语言模型，专为理解和生成语音而设计。AudioPaLM 将基于文本的和基于语音的语言模型，即 PaLM-2 和 AudioLM，融合到一个统一的多模态架构中，可以处理和生成文本和语音。
阅文妙笔大模型：国内首个网文大模型

在 7 月 19 日举行的阅文创作大会上，国内首个网文大模型“阅文妙笔”正式亮相。阅文集团 CEO 兼总裁侯晓楠表示，阅文妙笔是“最懂网文”的大模型，将以 AIGC 为创作生态和 IP 生态“全面赋能”。
JinaChat—面向开发者的多模态大模型服务

JinaChat，多模态、长记忆、低成本的大模型服务
千穰大模型-航旅纵横发布的民航领域垂直大模型

提供准确的实时民航信息和解答旅客的出行问题。千穰还提供全场景的数智化解决方案，包括机坪机位、航站楼和旅客服务等多个场景。
SmolLM-HuggingFace发布的高性能小型语言模型

SmolLM是由 Huggingface 最新发布的一组高性能的小型语言模型，参数分别为 1.35 亿、3.6 亿和 17 亿，训练数据来自高质量数据集 SmolLM-Corpus，其中包括 Cosmopedia v2、Python-Edu 和 FineWeb-Edu。SmolLM 模型在多种基准测试中表现不错，适合跑在手机这种终端设备上。
NExT-GPT：开源全能多模态AI大模型

新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出，可以实现文本、图像、语音和视频之间的自由转换，是第一个实现从任一模态到任一模态转换的通用多模态系统。
银河大模型-作业帮发布的自研教育AI大模型

银河大模型是作业帮自主研发的教育大模型，覆盖多学科、多学段、多场景，具备高度的知识解答能力，可以协助学生进行创意写作和自主提问
DeepSeek-V2：深度求索发布的第二代开源MoE模型

DeepSeek-V2 基于 2 千亿 MoE 模型底座，领先性能，超低价格，越级场景体验，已在对话官网和API全面上线。
360智脑

360智脑是一个由 360 公司开发的 AI 平台，旨在探索全新的人机协作模式，激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务，包括 API 开放平台、360鸿图、360AI搜索、360AI浏览器、360智脑桌面版和企业数字员工等。
DeepSeek-V3：DeepSeek推出的开源自研 MoE 模型，性能与速度全面突破

DeepSeek-V3 是由深度求索公司推出的一款全新发布的自研 MoE（混合专家）模型，旨在突破当前大语言模型的性能瓶颈。通过 671B 参数和 37B 激活专家，DeepSeek-V3 在 14.8T token 的大规模预训练上取得了显著进展，展现出与世界顶尖闭源模型（如 GPT-4o 和 Claude-3.5-Sonnet）相当的表现。该模型在多项标准评测中超越了 Qwen2.5-72B …
阿里达摩院遥感 AI 大模型

阿里达摩院发布业内首个遥感 AI 大模型（AIE-SEG），号称“率先在遥感领域实现了图像分割的任务统一”、“一个模型实现‘万物零样本’的快速提取”，并可识别农田、水域、建筑物等近百种遥感地物分类，还能根据用户的交互式反馈自动调优识别结果。
Yi-Lightning：零一万物推出的最新旗舰模型，推理速度更快，生成质量更好

Yi-Lightning是由李开复旗下零一万物公司发布的最新高性能模型，保证高质量输出同时，推理速度大幅提升。
豆包大模型-字节跳动推出的系列大语言模型

豆包大模型是字节跳动自研的一系列人工智能模型，包括通用模型Pro、Lite、角色扮演模型、语音合成模型、声音复刻模型、语音识别模型、文生图模型、Function Call模型和向量化模型。这些模型支持长文本处理、个性化角色创作、语音合成与识别、声音克隆、图文创作、复杂工具调用等功能，适用于问答、创作、分类等多种场景。
Video-XL：智源等推出的小时级超长视频理解大模型

Video-XL是一款创新性的长视频理解大模型，与现有的短视频模型相比，Video-XL在处理长视频时表现出卓越的效率和准确性，适用于电影摘要、广告检测、异常事件识别等多种应用场景。通过深度优化的视觉压缩和上下文建模技术，Video-XL能在单块80G显卡上支持2048帧的视频分析任务，并在主流视频理解基准上取得领先成绩。

AI训练模型

请输入验证码

....支付确认中....