-
GPT-4o mini:OpenAI最新推出的AI模型,更快更便宜更智能
GPT-4o mini是由OpenAI推出的一款高性价比小型模型,具有成本低、性能强、功能多样和安全可靠等特点。它在多项评测中表现优异,在 MMLU 上得分 82%,目前优于 GPT-4,比 GPT-3.5 Turbo 便宜 60% 以上。目前支持文本和视觉,未来将支持更多形式。 -
EchoMimicV2 - 蚂蚁推出的开源AI数字人模型,音频驱动人物动作生成逼真动态角色
EchoMimicV2 是蚂蚁集团开发的音频驱动的AI数字人生成模型,利用音频输入轻松驱动人物动作,打造超逼真、富有表现力的动态角色。 -
讯飞星火认知大模型
讯飞星火是科大讯飞发布的认知大模型,以中文为核心的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。 -
DCLM-7B:苹果最新推出的开源AI语言模型
DCLM-7B是苹果与合作伙伴一起推出的开源小型语言模型,全部开源,包括权重、训练代码和数据集。DCLM-7B性能优异,接近大型模型,采用decoder-only架构,上下文长度2048。DCLM在多个基准任务上性能出色,支持商业使用。 -
灵医大模型-百度发布的产业级医疗大模型
9 月 19 日消息,百度今日发布国内首个“产业级”医疗大模型 —— 灵医大模型,并面向大健康上下游产业开放灵医大模型测评、试用,推动医疗行业的数字化和智能化进程。 -
天镜大模型-国内首个零售金融大模型
“天镜”寓意大模型是人类智慧的镜像,“天镜”大模型汇集智慧、唤醒知识、众创价值和数字分身。在汇集智慧场景下,“天镜”可整合一线客服人员服务经验,实现一对多服务客户。在唤醒知识场景下,可解析专业金融文件,进行多文档查询和数据分析。 -
GLM-4-Flash:智谱AI推出的首个免费API服务,支持128K上下文
GLM-4-Flash是智谱AI推出的首个全面免费的API服务,旨在让AI技术惠及更广泛的用户群体。作为一款性能卓越的大语言模型,GLM-4-Flash在语义理解、数学计算、推理、代码生成和知识应用等多个领域表现出色,支持高达1500并发,能够满足大规模应用的需求。 -
Amazon Nova:亚马逊推出的新一代多模态AI大模型,覆盖文本、图像、视频
Amazon Nova 是亚马逊 AWS 推出的一款先进的生成式AI基础大模型,包括4款语言模型、1款图像模型和1款视频模型,Nova 的模型支持处理文本、图像和视频的输入与输出,提供前沿智能与行业领先的性价比。能够为不同行业提供高效、低成本的解决方案,支持语言理解、图像/视频生成以及多模态能力等任务。 -
MiniMax-01:MiniMax推出的开源AI模型,400万超长上下文,性能比肩GPT-4o
MiniMax-01是一个先进的大型语言模型系列,包括MiniMax-Text-01和MiniMax-VL-01。这些模型通过闪电注意力机制和混合专家架构,能够高效处理长达400万个token的上下文窗口,在多个标准和内部基准测试中表现出色,特别是在长上下文处理方面显著优于其他顶级模型。 -
k0-math:月之暗面推出的新一代数学推理模型
k0-math是月之暗面公司推出的首款推理能力强化模型,采用了全新的强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升了解决数学难题的能力,可以帮助用户完成更具挑战性的数学任务 。 -
Step-Video-T2V:阶跃星辰推出的开源视频生成大模型
Step-Video-T2V是阶跃星辰与吉利联合开源的一款高性能视频生成大模型,具备300亿参数量,能够生成540P分辨率的高质量视频。它支持复杂运动场景、精准镜头控制和生动人物生成,能够根据文本输入生成符合物理规律的视频。 -
-
Qwen2.5-VL:阿里通义千问推出的开源AI视觉语言模型
Qwen2.5-VL是由阿里通义千问推出的一款视觉语言理解模型,结合了图像、视频和文本处理能力。它能够精准识别图像中的物体、提取视频关键事件,并执行动态推理任务。通过物体定位、结构化数据输出和多模态理解,Qwen2.5-VL广泛适用于安全监控、电子商务、文档解析等领域。 -
Baichuan4-Finance:百川智能发布的金融大模型,金融场景能力领先GPT-4o近20%
Baichuan4-Finance是百川智能推出的专注于金融领域的大模型。该模型通过融合超过100B+的高密度、高质量中英文金融数据,致力于优化核心金融业务场景,提供智能化升级的全面解决方案。其设计严格遵循合规与安全标准,旨在赋能全场景金融创新。 -
GO-1:智元推出的首个通用具身基座模型
GO-1是什么? GO-1是智元机器人发布的通用具身基座大模型,采用ViLLA架构,结合视觉、语言、隐式动作和执行能力。它通过学习人类视频和少量样本泛化新任务,支持多机器人形态并持续进化。GO-1代表了具身智能向通用化、智能化发展的新阶段,预示着机器人将具备更广泛的应用潜力。 GO-1的主要特点 ViLLA架构:GO-1采用Vision-Language-Latent-Action (ViLLA)… -
PandaGPT-多模态AI大模型
首个实现了跨六种模态(图像/视频、文本、音频、深度、thermal和IMU)执行指令遵循数据的基础模型。在没有明确多模态监督的情况下,PandaGPT展现出了强大的多模态能力。 -
PowerLawGLM-法律垂直AI大模型
"PowerLawGLM"是由幂律智能联合智谱AI发布的千亿参数级法律垂直大模型。这个模型专注于法律细分领域,针对中文法律场景的应用效果具有独特优势,具备丰富的法律知识和法律语言理解能力。 -
通义万相Wan2.1- 阿里推出的开源视频生成大模型
通义万相Wan2.1是阿里巴巴推出的开源视频生成大模型,专注于从文本生成高质量图像和视频。Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,无论是创作者、开发者还是企业用户,都可以根据自己的需求选择合适的模型和功能,轻松实现高质量的视频生成。 -
Claude 3.7 Sonnet:Anthropic 最新推出的混合推理AI模型
Claude 3.7 Sonnet 是 Anthropic 公司推出的一款先进的人工智能模型,具备强大的推理和编码能力。它结合了即时响应与深度思考模式,用户可通过 API 控制思考时间,以平衡速度和回答质量。此外,它在数学、物理、指令遵循和软件开发等任务上表现出色,尤其在编码和前端开发方面有显著提升。 -
华为-盘古AI大模型
根据华为云官网消息,华为旗下的盘古系列AI大模型即将上线,该系列AI大模型中的NLP大模型、CV大模型、科学计算大模型(气象大模型)已经标记为即将上线状态。 据悉,盘古大模型采用了深度学习和自然语言处理技术,并使用了大量的中文语料库进行训练。该模型拥有超过1千亿个参数,可以支持多种自然语言处理任务,包括文本生成、文本分类、问答系统等等。 其中,盘古NLP大模型是被认为最接近人类中文理解能力的AI大… -
Ferret:苹果发布的多模态大语言模型
Ferret是由苹果公司开发的一个端到端的机器学习语言模型。Ferret不仅可以准确识别图像并描述其内容,还能够识别和定位图像中的各种元素,无论你用怎样的方式描述图像内容,Ferret都能准确地在图像中找到并识别出来。 -
-
Codestral-Mistral AI推出的AI代码生成模型
Codestral支持80多种编程语言,提供代码辅助功能和较大的上下文窗口,在性能表现上也表现出色。通过API端点和插件支持,Codestral可以灵活集成到各种开发环境中,满足不同开发者的需求。 -
DeepSeek-V3-0324:深度求索推出的新版本DeepSeek V3模型
DeepSeek-V3-0324 是 DeepSeek 团队发布的小版本升级模型,参数约 660B,上下文长度 128K。该版本在推理任务、前端开发、中文写作、中文搜索等方面显著提升,特别是在数学、代码和百科知识评测中表现优异。 -
-
Llama 3-Meta最新推出的新一代开源大模型
Llama 3是一款由Meta推出的大型开源人工智能语言模型,Llama-3共有80亿、700亿两个参数版本,与Llama-2相比,Llama-3使用了15T tokens的训练数据,在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。 -
AudioPaLM:谷歌语音理解和生成AI大模型
AudioPaLM 是一个大型语言模型,专为理解和生成语音而设计。AudioPaLM 将基于文本的和基于语音的语言模型,即 PaLM-2 和 AudioLM,融合到一个统一的多模态架构中,可以处理和生成文本和语音。 -
阅文妙笔大模型:国内首个网文大模型
在 7 月 19 日举行的阅文创作大会上,国内首个网文大模型“阅文妙笔”正式亮相。阅文集团 CEO 兼总裁侯晓楠表示,阅文妙笔是“最懂网文”的大模型,将以 AIGC 为创作生态和 IP 生态“全面赋能”。 -
-
-
SmolLM-HuggingFace发布的高性能小型语言模型
SmolLM是由 Huggingface 最新发布的一组高性能的小型语言模型,参数分别为 1.35 亿、3.6 亿和 17 亿,训练数据来自高质量数据集 SmolLM-Corpus,其中包括 Cosmopedia v2、Python-Edu 和 FineWeb-Edu。SmolLM 模型在多种基准测试中表现不错, 适合跑在手机这种终端设备上。 -
NExT-GPT:开源全能多模态AI大模型
新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。 -
-
-
360智脑
360智脑是一个由 360 公司开发的 AI 平台,旨在探索全新的人机协作模式,激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务,包括 API 开放平台、360鸿图、360AI搜索、360AI浏览器、360智脑桌面版和企业数字员工等。 -
DeepSeek-V3:DeepSeek推出的开源自研 MoE 模型,性能与速度全面突破
DeepSeek-V3 是由深度求索公司推出的一款全新发布的自研 MoE(混合专家)模型,旨在突破当前大语言模型的性能瓶颈。通过 671B 参数和 37B 激活专家,DeepSeek-V3 在 14.8T token 的大规模预训练上取得了显著进展,展现出与世界顶尖闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相当的表现。该模型在多项标准评测中超越了 Qwen2.5-72B … -
阿里达摩院遥感 AI 大模型
阿里达摩院发布业内首个遥感 AI 大模型(AIE-SEG),号称“率先在遥感领域实现了图像分割的任务统一”、“一个模型实现‘万物零样本’的快速提取”,并可识别农田、水域、建筑物等近百种遥感地物分类,还能根据用户的交互式反馈自动调优识别结果。 -
-
豆包大模型-字节跳动推出的系列大语言模型
豆包大模型是字节跳动自研的一系列人工智能模型,包括通用模型Pro、Lite、角色扮演模型、语音合成模型、声音复刻模型、语音识别模型、文生图模型、Function Call模型和向量化模型。这些模型支持长文本处理、个性化角色创作、语音合成与识别、声音克隆、图文创作、复杂工具调用等功能,适用于问答、创作、分类等多种场景。 -
Video-XL:智源等推出的小时级超长视频理解大模型
Video-XL是一款创新性的长视频理解大模型,与现有的短视频模型相比,Video-XL在处理长视频时表现出卓越的效率和准确性,适用于电影摘要、广告检测、异常事件识别等多种应用场景。通过深度优化的视觉压缩和上下文建模技术,Video-XL能在单块80G显卡上支持2048帧的视频分析任务,并在主流视频理解基准上取得领先成绩。