-
讯飞星火认知大模型
讯飞星火是科大讯飞发布的认知大模型,以中文为核心的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。 -
Stable Diffusion-全球最强开源AI绘画模型
Stable Diffusion 完全免费开源,所有代码均在 GitHub 上公开,任何人都可以拷贝使用,只需要输入一句提示词(prompt),就能够在几秒钟内创造出令人惊叹的绘画作品。 -
蓝心大模型BlueLM
BlueLM是vivo开发的一款强大的语言理解模型,它具有丰富的场景应用能力。这个模型以其庞大的规模、先进的算法、安全性和自我进化的特点,标志着人工智能新时代的到来。BlueLM拥有70亿的模型参数量和2.6T的多语言语料,能够处理32K的大尺寸上下文,这使得它在处理复杂的语言理解任务时表现出色。 -
Vidu:生数科技发布的AI视频生成工具,可生成16秒1080P高清视频
Vidu支持文生视频、图生视频及角色一致性生成功能,语义理解精准、镜头语言丰富、动态感强,具备写实和动漫等多元风格,让视频创作释放无限可能 -
DeepSeek-R1:深度求索发布的AI推理模型,性能对标 OpenAI o1 正式版
DeepSeek-R1 是深度求索推出的高性能推理模型,性能与 OpenAI o1 正式版相当。通过强化学习技术和极少标注数据,DeepSeek-R1 在数学、代码和自然语言推理等任务中表现卓越。该模型遵循 MIT License 开源,支持模型蒸馏,允许用户训练其他模型。此外,DeepSeek-R1 提供 API 服务,按 token 计费,广泛应用于科研、技术开发和企业智能化升级等领域。 -
Grok 3:马斯克旗下XAI发布的新一代AI大模型
Grok 3是由埃隆·马斯克旗下公司xAI开发的的新一代大语言模型系列,包括Grok-3及其精简版Grok-3 mini。Grok 3计算能力是前代的十倍,具备思维链推理和逻辑一致性。数学、科学推理和编程能力领先,AIME'24得52分,科学知识75分,编程57分,AIME 2025得93分,LMSYS聊机竞技场得1400分。新增Big Brain和DeepSearch模式,优化复杂任务… -
DeepSeek-V3:DeepSeek推出的开源自研 MoE 模型,性能与速度全面突破
DeepSeek-V3 是由深度求索公司推出的一款全新发布的自研 MoE(混合专家)模型,旨在突破当前大语言模型的性能瓶颈。通过 671B 参数和 37B 激活专家,DeepSeek-V3 在 14.8T token 的大规模预训练上取得了显著进展,展现出与世界顶尖闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相当的表现。该模型在多项标准评测中超越了 Qwen2.5-72B … -
天工SkyMusic-昆仑万维推出的AI音乐生成大模型
「天工SkyMusic」是昆仑万维推出的AI音乐生成大模型,基于昆仑万维「天工3.0」超级大模型打造,是目前国内唯一公开可用的AI音乐生成大模型。具备高质量音乐制作、逼真人声合成、精准歌词控制、多元风格适应及复杂歌唱技巧学习等五大特点。该模型基于先进的Transformer技术,能够根据用户输入生成具有丰富情感表达的音乐作品,旨在推动音乐创作的创新和个性化发展。 -
-
Gemini-谷歌发布的多模态AI大模型
AIHub 12 月 6 日消息,谷歌宣布推出其认为规模最大、功能最强大的人工智能多模态AI模型 Gemini。意味着它可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频。 -
豆包大模型1.5:字节跳动推出的新一代多模态AI大模型
豆包大模型1.5是字节跳动推出的新一代多模态AI大模型,涵盖多个版本,包括Doubao-1.5-pro、Doubao-1.5-lite、Doubao-1.5-vision-pro和实时语音模型。该模型在知识、代码、推理、中文等多个权威测评中表现优异,性能全球领先,适用于教育、开发和商业等多个领域。豆包大模型1.5采用稀疏MoE架构,优化推理效率,支持多模态和语音交互,推动AI技术创新与应用。 -
K1.5:Kimi 最新推出的多模态思考模型
Kimi k1.5 是Kimi推出的最新多模态思考模型,专为解决复杂的推理任务而设计。作为一款集数学推理、代码生成、视觉推理和多模态数据分析于一体的高性能AI模型,k1.5在推理速度和准确性上取得了突破性进展,标志着AI推理技术的进一步提升。 -
Janus-Pro:DeepSeek推出的开源AI模型,支持图像理解和图像生成
Janus-Pro是由DeepSeek推出的开源大一统模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适配多元应用场景。它通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。 -
EMO-阿里巴巴发布的AI肖像视频生成框架
EMO是一个由阿里巴巴发布的音频驱动的肖像视频生成框架。它能够通过单一参考图像和音频输入,生成具有丰富表情和多样头部姿势的虚拟角色视频。EMO利用先进的注意力机制和去噪网络,支持多语言和多种肖像风格的动态表现,为内容创作和虚拟角色动画制作提供了新工具。 -
Llama 3-Meta最新推出的新一代开源大模型
Llama 3是一款由Meta推出的大型开源人工智能语言模型,Llama-3共有80亿、700亿两个参数版本,与Llama-2相比,Llama-3使用了15T tokens的训练数据,在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。 -
MiniMax-01:MiniMax推出的开源AI模型,400万超长上下文,性能比肩GPT-4o
MiniMax-01是一个先进的大型语言模型系列,包括MiniMax-Text-01和MiniMax-VL-01。这些模型通过闪电注意力机制和混合专家架构,能够高效处理长达400万个token的上下文窗口,在多个标准和内部基准测试中表现出色,特别是在长上下文处理方面显著优于其他顶级模型。 -
VideoWorld:豆包等推出的开源视频生成模型,从无标签视频中学习知识
VideoWorld是豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型,通过无标注的视频数据训练,探索AI如何从视觉输入中学习复杂任务。 -
-
-
华知大模型-同方知网携手华为推出的中华知识大模型
华知大模型是同方知网携手华为共同打造内容权威可信、全栈自主可控的专注于知识服务与科研行业的中华知识大模型,旨在覆盖政企文教等多个行业场景,并提供30多项通用能力体系。 -
-
-
Qwen2.5-Max:阿里通义千问推出的旗舰MoE模型
Qwen2.5-Max是阿里云推出的超大规模MoE模型,采用超过20万亿tokens的预训练数据,展现卓越性能。该模型在多个基准测试中超越DeepSeek V3、GPT-4o等领先AI,支持指令模型和基座模型。用户可通过Qwen Chat平台直接对话或调用API进行集成。 -
DCLM-7B:苹果最新推出的开源AI语言模型
DCLM-7B是苹果与合作伙伴一起推出的开源小型语言模型,全部开源,包括权重、训练代码和数据集。DCLM-7B性能优异,接近大型模型,采用decoder-only架构,上下文长度2048。DCLM在多个基准任务上性能出色,支持商业使用。 -
TripoSR - 单张图片快速生成高质量3D模型
TripoSR是由Stability AI 和国内AI企业VAST合作开源的快速3D物体重建模型,能在1秒内从单张2D图像快速生成高质量的3D模型。 -
Genesis:生成式物理引擎,一句话生成完整精确的模拟物理世界
Genesis 是一款由国内外众多高校和产业机构联合开发的生成式物理引擎,专为通用机器人/嵌入式 AI/物理 AI 应用程序而设计。结合 AI 与物理仿真技术,实现超高精度的动态模拟与多模态生成。 -
-
Goku:港大字节推出的AI视频生成模型
Goku是香港大学与字节跳动合作开发的视频生成模型,基于Rectified Flow Transformer架构,能够从文本、图像或图文输入生成高质量的视频。 -
HiDream.ai-多模态视觉大模型
HiDream.ai(智象未来)是一家主打人工智能业务的公司,由前京东副总裁、加拿大工程院外籍院士梅涛于2023年3月成立。公司的目标是围绕视觉,打造生成式多模态基础模型及应用,并让基于此生成的内容,真正进入营销、设计场景的业务流中。 -
阿里达摩院遥感 AI 大模型
阿里达摩院发布业内首个遥感 AI 大模型(AIE-SEG),号称“率先在遥感领域实现了图像分割的任务统一”、“一个模型实现‘万物零样本’的快速提取”,并可识别农田、水域、建筑物等近百种遥感地物分类,还能根据用户的交互式反馈自动调优识别结果。 -
混元3D 2.0:腾讯混元发布的3D开源模型2.0版本
混元3D 2.0是腾讯混元推出的3D开源大模型2.0版本,旨在通过先进的AI技术,快速生成高质量的3D模型。对比1.0版本,2.0版本也依然同时支持文、图生3D的能力,并在生成效果上得到显著提升,在几何结构上更加精细,纹理色彩更加丰富,支持更精细、更逼真的3D内容创作。 -
豆包大模型-字节跳动推出的系列大语言模型
豆包大模型是字节跳动自研的一系列人工智能模型,包括通用模型Pro、Lite、角色扮演模型、语音合成模型、声音复刻模型、语音识别模型、文生图模型、Function Call模型和向量化模型。这些模型支持长文本处理、个性化角色创作、语音合成与识别、声音克隆、图文创作、复杂工具调用等功能,适用于问答、创作、分类等多种场景。 -
Llama 3.1:Meta最新推出的开源大语言模型
Llama 3.1是Meta最新推出的开源大语言模型,有三种规格:80亿、700亿和4050亿参数,支持八种语言,具备128K扩展上下文长度。它提供卓越的通用知识、数学计算、多语言翻译和工具使用能力,开放下载并允许开发者定制和微调。 -
-
GLM-Realtime:智谱最新推出的端到端AI模型,支持2分钟记忆和清唱功能
GLM-Realtime是由智谱推出的低延迟端到端多模态模型,具备视频理解、语音交互、内容记忆、清唱功能和 Function Call 功能。它适用于多种实时交互场景,通过 Function Call 功能可以拓展到更广泛的商业应用。开发者可以免费调用该模型,体验其强大的实时交互能力。 -
-
-
DeepSeek-V2.5:深度求索推出的融合通用与代码能力的开源模型
DeepSeek-V2.5是由杭州深度求索推出的融合了通用对话能力和强大代码处理能力的开源AI模型。它结合了DeepSeek-Chat和DeepSeek-Coder模型,支持通用任务和代码生成,同时优化了用户体验。 -
-
Yi大模型-零一万物发布的开源大模型
Yi系列模型是由来自“零一万物”的开发者研发的大型语言模型。第一个公开版本包含两个双语版(英语/中文)基础模型,参数规模分别为6B和34B。两者都使用4K序列长度进行训练,并在推理时可以扩展到32K。