-
Qwen2.5-VL:阿里通义千问推出的开源AI视觉语言模型
Qwen2.5-VL是由阿里通义千问推出的一款视觉语言理解模型,结合了图像、视频和文本处理能力。它能够精准识别图像中的物体、提取视频关键事件,并执行动态推理任务。通过物体定位、结构化数据输出和多模态理解,Qwen2.5-VL广泛适用于安全监控、电子商务、文档解析等领域。 -
Janus-Pro:DeepSeek推出的开源AI模型,支持图像理解和图像生成
Janus-Pro是由DeepSeek推出的开源大一统模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适配多元应用场景。它通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。 -
Qwen2.5-1M:阿里推出的开源AI模型,支持100万Token上下文
Qwen2.5-1M是阿里巴巴Qwen团队发布的支持100万Token上下文的开源语言模型系列,包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。它们结合了基于vLLM的推理框架和稀疏注意力机制,显著提升了处理长文本时的速度和效率。该模型在长上下文任务中表现优异,特别是在密钥检索等复杂任务中,超越了之前的Qwen2.5-Turbo和GPT-4o-mi… -
豆包大模型1.5:字节跳动推出的新一代多模态AI大模型
豆包大模型1.5是字节跳动推出的新一代多模态AI大模型,涵盖多个版本,包括Doubao-1.5-pro、Doubao-1.5-lite、Doubao-1.5-vision-pro和实时语音模型。该模型在知识、代码、推理、中文等多个权威测评中表现优异,性能全球领先,适用于教育、开发和商业等多个领域。豆包大模型1.5采用稀疏MoE架构,优化推理效率,支持多模态和语音交互,推动AI技术创新与应用。 -
子曰-o1:网易有道推出的开源轻量级AI推理模型
子曰-o1是网易有道推出的国内首个支持分步讲解的轻量级推理模型,采用14B架构,专为消费级显卡设计,可高效运行。通过链式思维推理和自我纠错,模型输出详细的解题步骤,帮助用户掌握逻辑思路。 -
混元3D 2.0:腾讯混元发布的3D开源模型2.0版本
混元3D 2.0是腾讯混元推出的3D开源大模型2.0版本,旨在通过先进的AI技术,快速生成高质量的3D模型。对比1.0版本,2.0版本也依然同时支持文、图生3D的能力,并在生成效果上得到显著提升,在几何结构上更加精细,纹理色彩更加丰富,支持更精细、更逼真的3D内容创作。 -
K1.5:Kimi 最新推出的多模态思考模型
Kimi k1.5 是Kimi推出的最新多模态思考模型,专为解决复杂的推理任务而设计。作为一款集数学推理、代码生成、视觉推理和多模态数据分析于一体的高性能AI模型,k1.5在推理速度和准确性上取得了突破性进展,标志着AI推理技术的进一步提升。 -
DeepSeek-R1:深度求索发布的AI推理模型,性能对标 OpenAI o1 正式版
DeepSeek-R1 是深度求索推出的高性能推理模型,性能与 OpenAI o1 正式版相当。通过强化学习技术和极少标注数据,DeepSeek-R1 在数学、代码和自然语言推理等任务中表现卓越。该模型遵循 MIT License 开源,支持模型蒸馏,允许用户训练其他模型。此外,DeepSeek-R1 提供 API 服务,按 token 计费,广泛应用于科研、技术开发和企业智能化升级等领域。 -
Step-2 文学大师版:阶跃星辰推出的文学创作大语言模型
Step-2 文学大师版是阶跃星辰推出的一款高级语言模型,专为文学创作优化。基于 Step-2 模型,文学大师版具备深刻的文学理解和创作能力,能够生成富有个性、思想深度和语言凝练的文本作品。与传统AI写作工具不同,它能够避免空泛的内容,提供更具逻辑性和情感共鸣的创作。 -
Seaweed-APT:AI视频生成模型,单步生成2秒钟的1280x720 24fps视频
Seaweed-APT是字节跳动发布的一款生成模型,首次展示了在仅一次神经网络评估下生成 1280x720分辨率、24帧每秒的高质量视频,生成时长可达2秒。该模型广泛应用于影视特效、游戏开发、虚拟现实、广告创意等领域,能够快速生成复杂场景和互动内容,大幅提升创作效率,降低制作成本,推动动态内容生成技术的发展。 -
Step R-mini:阶跃星辰推出的推理大模型,擅长数学、逻辑和代码
Step R-mini是由阶跃星辰推出的自研AI 推理模型,这是 Step 系列家族的首个推理模型,擅长逻辑推理、代码和数学问题的解决,同时也能进行文学创作等任务。Step R-mini 采用“慢思考”和反复验证的逻辑机制,能够提供准确、可靠的回答。 -
MatterGen:微软推出的无机材料设计AI模型,辅助生成新材料
MatterGen 是微软推出的基于生成性AI的材料设计模型,利用扩散模型生成具有特定化学、机械、电子或磁性属性的新材料。它能够高效生成稳定、独特的材料,超越传统筛选方法,快速探索未知材料空间。 -
GLM-Realtime:智谱最新推出的端到端AI模型,支持2分钟记忆和清唱功能
GLM-Realtime是由智谱推出的低延迟端到端多模态模型,具备视频理解、语音交互、内容记忆、清唱功能和 Function Call 功能。它适用于多种实时交互场景,通过 Function Call 功能可以拓展到更广泛的商业应用。开发者可以免费调用该模型,体验其强大的实时交互能力。 -
星火深度推理模型X1
星火深度推理模型X1是科大讯飞推出的首个具备深度思考和推理能力的大型AI模型。它基于全国产算力训练,拥有较高的数学能力和推理能力,能够在较少算力的情况下提供业界领先的效果,并成功实现了在实际场景中的应用。 -
MiniMax-01:MiniMax推出的开源AI模型,400万超长上下文,性能比肩GPT-4o
MiniMax-01是一个先进的大型语言模型系列,包括MiniMax-Text-01和MiniMax-VL-01。这些模型通过闪电注意力机制和混合专家架构,能够高效处理长达400万个token的上下文窗口,在多个标准和内部基准测试中表现出色,特别是在长上下文处理方面显著优于其他顶级模型。 -
Sana - 英伟达等推出的开源图像生成模型,支持生成4096×4096图像
Sana是由英伟达、麻省理工学院和清华大学等联合推出的文本到图像合成框架,能够快速生成高达4096×4096分辨率的高质量图像。Sana的核心设计包括深度压缩自编码器、线性DiT、解码器仅文本编码器和高效的训练与采样策略。这些设计使得Sana在保持图像质量的同时,显著提高了生成速度,甚至可以在笔记本电脑的GPU上部署。 -
Codestral 25.01:Mistral AI最新推出的AI编程模型,编程速度提高2倍
Codestral 25.01是由Mistral AI推出的一款先进的AI编程模型,旨在显著提升软件开发的效率和质量。作为今年早些时候发布的Codestral的升级版本,Codestral 25.01在架构和分词器上进行了优化,生成和补全代码的速度提升了约2倍。它支持超过80种编程语言,特别适用于低延迟、高频率的使用场景,如代码填充(FIM)、代码修正和测试生成。 -
Sky-T1: NovaSky推出的高性价比推理模型,训练成本不到450美元
Sky-T1是由UC Berkeley的NovaSky团队开发的推理模型,其性能与O1-preview模型相当,特别是在推理和编码基准测试中表现出色。Sky-T1-32B-Preview的训练成本不到450美元,展示了以低成本和高效的方式复制高级推理能力的可能性。所有代码和模型权重都是开源的,旨在促进学术和开源社区的参与和进步。 -
Smolagents:Huggingface推出的AI智能体开发框架
Smolagents 是由 Hugging Face 团队开发的简约 AI 代理框架,旨在帮助开发者以最少的代码构建高效的 AI 代理。它通过代码代理执行 Python 代码来处理任务,支持多种大语言模型(如 Hugging Face、OpenAI),并与 Hugging Face Hub 深度集成。Smolagents 提供了安全的沙箱环境,适用于任务自动化、数据处理、旅行规划等场景,极大提升开… -
GLM-Zero:智谱AI最新推出的AI深度推理模型
GLM-Zero是智谱AI推出的最新推理模型,专为解决数学、编程、常识问答等复杂任务而设计。该模型具备卓越的推理能力,能高效处理高级数学运算、逻辑推理、编程任务等,适用于教育、科研和技术开发等多个领域。凭借其强大的计算和推理能力,GLM-Zero为用户提供了精准、高效的解决方案,推动了生成式AI在多领域的应用和发展。 -
启元重症大模型:腾讯与迈瑞联合推出的全球首个面向ICU的智能医疗大模型
启元重症大模型是由腾讯联合迈瑞医疗开发的全球首个针对ICU场景的智能医疗大模型,旨在通过实时监测患者生命体征、快速生成病情总结、提供诊疗建议以及自动生成病历等功能,全面辅助重症医疗工作。该模型结合医学知识图谱,覆盖98%的医学知识,具备强大的理解与生成能力,为医护人员提供精准的诊疗支持,提升工作效率,减轻工作负担,同时为患者争取更多的治疗机会。 -
魔乐社区:中国电信推出的AI模型开发者社区
魔乐社区是由中国电信推出的专注于人工智能(AI)技术的开放开源平台,提供AI模型、AI数据集、体验空间、技术文档和社区等服务。社区支持AI研究人员、开发者和AI爱好者,提供大模型应用、数据集构建、算法优化等方面的资源。通过举办AI大赛、分享最佳实践和开源代码,魔乐社区促进技术交流和合作,帮助用户在实践中提升AI能力,推动AI技术的创新与普及。 -
DeepSeek-V3:DeepSeek推出的开源自研 MoE 模型,性能与速度全面突破
DeepSeek-V3 是由深度求索公司推出的一款全新发布的自研 MoE(混合专家)模型,旨在突破当前大语言模型的性能瓶颈。通过 671B 参数和 37B 激活专家,DeepSeek-V3 在 14.8T token 的大规模预训练上取得了显著进展,展现出与世界顶尖闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相当的表现。该模型在多项标准评测中超越了 Qwen2.5-72B … -
CogAgent-9B:智谱AI推出的专用于Agent任务的开源基座模型
CogAgent-9B是智谱AI推出的最新开源基座模型,基于 GLM-4V-9B 训练而成的专用Agent任务模型。该模型仅需屏幕截图作为输入(无需HTML等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的GUI操作。得益于屏幕截图和GUI操作的普适性,CogAgent 可广泛应用于各类基于GUI交互的场景,如个人电脑、手机、车机设备等。 -
Step-1X-Medium:阶跃星辰推出的新一代图像生成模型,支持图生图和一键风格迁移
Step-1X-Medium 是由阶跃星辰推出的新一代图像生成模型,显著提升生成速度、理解能力、细节质感以及创作功能,目标成为创作者的得力助手。升级后的模型能够更精准地理解用户指令,生成更契合需求的图像作品,并新增了“图生图”的垫图、风格迁移等更丰富的创作玩法,进一步降低创作门槛。 -
QVQ-72B-Preview:阿里通义推出的开源多模态推理模型
QVQ-72B-Preview 是由阿里通义团队开发的一款多模态视觉推理模型,基于 Qwen2-VL-72B 微调,拥有 73.4B 参数,专注于复杂的视觉理解和跨学科推理任务。QVQ不但能感知更准确的视觉内容,并据此作出更细致的分析推理,还会质疑自身假设,仔细审视其推理过程的每一步,经过深思熟虑后给出最后结论。 -
Baichuan4-Finance:百川智能发布的金融大模型,金融场景能力领先GPT-4o近20%
Baichuan4-Finance是百川智能推出的专注于金融领域的大模型。该模型通过融合超过100B+的高密度、高质量中英文金融数据,致力于优化核心金融业务场景,提供智能化升级的全面解决方案。其设计严格遵循合规与安全标准,旨在赋能全场景金融创新。 -
OpenAI o3:OpenAI最新推出的高性能AI推理模型
o3 是 OpenAI 最新推出的高性能 AI 推理模型,专注于数学推理、编程和科学问题解决,首次在多个领域超越人类专家水平。在数学竞赛和编程任务中表现卓越,支持复杂任务的透明推理和代码生成。此外,轻量版 o3Mini 提供高效、低成本的解决方案。o3 的发布标志着 AI 技术迈向更高智能的里程碑,适用于研究、开发和教育等多领域应用。 -
Gemini 2.0 Flash Thinking:Google 最新推出的高效推理AI模型
Gemini 2.0 Flash Thinking是由Google 最新推出的一个实验性AI模型,该模型支持多模态输入(文本+图像),不仅能快速提供答案,还能清晰展示推理过程,解决传统 AI 模型的“黑箱”问题。与Gemini 2.0 Flash 基础模型相比,Gemini 2.0 Flash Thinking在回答问题时能够发挥更强的推理能力。它是对 OpenAI o1 系列模型的强有力挑战者。 -
Genesis:生成式物理引擎,一句话生成完整精确的模拟物理世界
Genesis 是一款由国内外众多高校和产业机构联合开发的生成式物理引擎,专为通用机器人/嵌入式 AI/物理 AI 应用程序而设计。结合 AI 与物理仿真技术,实现超高精度的动态模拟与多模态生成。 -
-
Veo 2:谷歌推出的最新AI视频生成模型,支持生成4k高清视频
Veo 2 是由 Google DeepMind 推出的最新视频生成模型,通过用户的文本提示生成高质量的视频片段,支持分辨率高达4K。Veo 2 的核心技术结合了 AI 对视觉内容的深度理解,能够生成符合指定风格和内容的视频,广泛应用于创意设计和内容创作领域。 -
K1:Kimi 推出的全新一代视觉思考模型
K1 是由 Kimi 发布的全新一代视觉思考模型,k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。 -
千影 QianYing:巨人网络推出的有声游戏生成大模型
千影 QianYing 是巨人网络发布的有声游戏生成大模型,结合了 YingGame(游戏视频生成)和 YingSound(视频配音)两大核心技术,旨在通过人工智能大幅提升游戏内容的生成效率和创作自由度。它支持通过简单的文字描述生成游戏视频、音效及互动内容,降低游戏开发门槛,推动“游戏+AI”深度融合,为游戏开发、教育培训、内容创作等多个领域提供创新解决方案。 -
POINTS 1.5:微信发布的最新多模态AI大模型
POINTS 1.5是什么? POINTS1.5是微信最新发布的多模态大模型,性能超越了同级别开源模型,位居OpenCompass Leaderboard榜首。 它采用LLaVA架构,使用NaViT风格视觉编码器和Qwen2.5-7B-Instruct大语言模型,支持中英文双语理解和生成。POINTS1.5在多个基准测试和真实场景中表现出色,具备强大的视觉理解、推理和信息提取能力。 该模型通过单独… -
Gemini 2.0:谷歌推出的面向代理时代的多模态大模型
Gemini 2.0 是 Google 最新推出的多模态人工智能大模型,支持处理文本、图像、音频和视频等数据类型。相比 1.0,2.0 在多模态方面实现突破,不仅支持图像、视频和音频输入,还支持原生图像和音频输出,并可调用谷歌搜索、代码及第三方函数,显著提升模型的灵活性和扩展性。 -
星流 Star-3 Alpha :LiblibAI推出的自研AI图像生成大模型
Star-3 Alpha是LiblibAI和星流联合推出的下一代自研图像生成大模型,基于F.1基础算法架构进行训练。它旨在为用户提供更加精准、细腻的图像生成能力,尤其在色彩表现、图像细节和艺术风格的捕捉方面表现出色。Star-3 Alpha采用先进的AI算法,能够响应复杂的提示词,生成高质量的图像,广泛应用于各类创作和设计领域。 -
PaliGemma 2:Google 推出的新一代AI视觉语言模型
PaliGemma 2 是 Google 推出的最新一代AI视觉语言模型,它在前代基础上集成了视觉处理能力,能够识别、理解并与视觉输入互动,是一款支持简单微调的强大 AI 模型。 -
Genie 2:Google DeepMind 推出的基础世界模型,单张图生成 1分钟可玩 3D 世界
Genie 2 是一个基础世界模型,只需使用单张图像就能生成可供人类或 AI 智能使用键鼠输入游玩的3D 环境。 -
Luma Photon:Luma推出的AI图像生成模型
Luma Photon 是由Luma推出的一款强大的AI图像生成模型,专为需要高质量视觉创作的专业人士设计。它提供高效、快速且低成本的图像生成体验,能够帮助创作者在设计、电影、建筑等多个领域中实现卓越的视觉效果。无论是创意设计、艺术创作还是广告制作,Luma Photon 都能为用户提供无限的创作可能性。