-
Gen-4:Runway推出的新一代AI视频生成模型
Runway Gen-4 是由 Runway 推出的第四代视频生成模型,具备高度一致性、多视角控制、风格保持和镜头构图能力。该模型支持通过文字描述或图像参考,生成高质量、连续性强的视频内容。 -
QVQ-Max:阿里通义推出的视觉推理模型,能分析图片和视频内容
QVQ-Max 是阿里巴巴通义团队推出的AI视觉推理模型,能够分析图片和视频内容,进行推理和解决问题。它具备细致的观察能力,能识别图像中的关键元素,并结合背景知识进行深度推理。 -
Qwen2.5-Omni:阿里推出的新一代端到端多模态模型
Qwen2.5-Omni是阿里巴巴通义团队推出的一款全模态大语言模型。它能够处理多种输入形式,包括文本、音频、图像和视频,并生成相应的输出。 -
Mureka O1 - 昆仑万维推出的AI音乐推理大模型
Mureka O1是昆仑万维发布的全球首款音乐推理大模型,基于Mureka V6升级,引入CoT技术,支持纯音乐及10种语言创作,涵盖多种曲风和情感。用户可通过简单模式输入风格或高级模式输入歌词等创作。它还提供歌曲参考、音色克隆功能,支持API服务与模型微调。 -
Gemini 2.5 Pro:谷歌推出的最新多模态AI模型,具备高级推理能力
Gemini 2.5 Pro是谷歌推出的一款具备高级推理能力的人工智能模型,支持文本、图像、音频和视频等多种输入形式,上下文窗口达100万token。用户可以通过Google AI Studio和Gemini Advanced免费使用,Vertex AI集成即将推出 -
DeepSeek-V3-0324:深度求索推出的新版本DeepSeek V3模型
DeepSeek-V3-0324 是 DeepSeek 团队发布的小版本升级模型,参数约 660B,上下文长度 128K。该版本在推理任务、前端开发、中文写作、中文搜索等方面显著提升,特别是在数学、代码和百科知识评测中表现优异。 -
Qwen2.5-VL-32B-Instruct:阿里开源的最新多模态模型,主打视觉语言理解和推理
Qwen2.5-VL-32B-Instruct 是阿里开源的多模态大模型(32B参数),支持 视觉+语言+数学推理,在 图像理解(如地理特征识别、多轮视觉问答)和 复杂数学推理(几何、数列等)方面表现突出。通过强化学习优化,其输出更符合人类偏好,回答更详细、结构化。 -
减单 - 安徽医科大学等推出的体重管理大模型智能助手
“减单”是由安徽医科大学联合中国科学技术大学附属第一医院和健康科技企业共同发布的体重管理大模型智能助手。它基于国内外多个AI大模型技术,结合超过40万名肥胖相关慢性疾病患者的管理数据训练而成,旨在借助AI技术提高减重的个性化干预质量和诊疗效率。 -
腾讯混元T1:腾讯推出的最新深度思考推理模型
腾讯混元 T1 是腾讯推出的最新深度思考推理模型,具备强大的分析和推理能力,能够清晰、有依据地回答复杂问题。T1 还支持联网搜索,结合实时信息提供更准确的答案。 -
Step-Video-TI2V:阶跃星辰开源的AI图生视频模型
Step-Video-TI2V是阶跃星辰开源的AI图生视频模型,基于30B参数训练,支持生成102帧、5秒、540P分辨率的视频。它具备运动幅度和镜头运动可控性,适合动画和短视频制作,尤其在动漫效果上表现突出。 -
Stable Virtual Camera:Stability AI等推出的AI模型 ,2D图像轻松转3D视频
Stable Virtual Camera是由Stability AI推出的多视图扩散模型,能够将2D图像转化为具有真实深度和透视效果的3D视频。该模型支持用户自定义相机轨迹和多种动态路径,可从单个或多达32个输入图像生成3D视频,并支持多种宽高比和长达1000帧的长视频生成。 -
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
Skywork R1V 是昆仑万维开源的多模态视觉思维链推理模型,专注于通过多步逻辑推理解决复杂的视觉任务。它结合了强大的文本推理能力和视觉理解能力,能够处理视觉逻辑推理、数学问题、科学现象分析等任务。 -
Gemini 2.0:谷歌推出的面向代理时代的多模态大模型
Gemini 2.0 是 Google 最新推出的多模态人工智能大模型,支持处理文本、图像、音频和视频等数据类型。相比 1.0,2.0 在多模态方面实现突破,不仅支持图像、视频和音频输入,还支持原生图像和音频输出,并可调用谷歌搜索、代码及第三方函数,显著提升模型的灵活性和扩展性。 -
文心大模型4.5:百度推出的新一代原生多模态基础大模型
文心大模型4.5是百度推出的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。 -
文心大模型X1:百度推出的新一代深度思考模型
文心大模型X1是百度发布的新一代深度思考模型,具备强大的理解、规划、反思和进化能力,支持多模态输入输出以及多种工具调用。它在中文知识问答、文学创作、复杂计算等方面表现出色,性能对标DeepSeek-R1,但API调用价格仅为一半。 -
-
讯飞星火认知大模型
讯飞星火是科大讯飞发布的认知大模型,以中文为核心的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。 -
Gemma 3:Google 推出的轻量级高性能开源模型,支持单个GPU运行
Gemma 3 是 Google 推出的轻量级、高性能开源模型,支持多种尺寸(1B、4B、12B 和 27B),专为单 GPU 或 TPU 设计。它支持 140 多种语言,具备高级文本和视觉推理能力,配备 128k-token 上下文窗口和函数调用功能,支持复杂任务处理。Gemma 3 提供量化版本,优化性能,降低计算需求,并配备安全特性。它无缝集成多种开发工具,支持灵活部署,助力开发者快速构建高… -
SeedFoley - 字节跳动推出的AI视频音效生成模型
SeedFoley 是字节跳动推出的端到端视频音效生成模型,通过融合时空视频特征和扩散生成模型,实现音效与视频的高度同步。它支持可变长度视频输入,可在音效准确性、同步性和匹配度上达到领先水平。SeedFoley 已上线即梦应用,用户可一键生成专业级音效,广泛应用于 AI 视频创作、Vlog、短片和游戏制作等场景,提升视频的沉浸感和专业感。 -
GO-1:智元推出的首个通用具身基座模型
GO-1是什么? GO-1是智元机器人发布的通用具身基座大模型,采用ViLLA架构,结合视觉、语言、隐式动作和执行能力。它通过学习人类视频和少量样本泛化新任务,支持多机器人形态并持续进化。GO-1代表了具身智能向通用化、智能化发展的新阶段,预示着机器人将具备更广泛的应用潜力。 GO-1的主要特点 ViLLA架构:GO-1采用Vision-Language-Latent-Action (ViLLA)… -
OpenAI o3-mini:OpenAI最新发布的AI推理模型
o3-mini 是 OpenAI 推出的新一代推理模型,旨在为用户提供高效且经济的推理能力。它继承了前代 o1 模型的优点,同时通过优化提升了在 科学、数学、编程 等领域的推理能力,并保持了 低成本 和 低延迟。o3-mini 已经在 ChatGPT 和 API 中上线,适用于广泛的企业和开发者场景。 -
混元图生视频模型 - 腾讯开源的AI视频生成模型
混元图生视频模型是腾讯开源的一个图像转视频生成框架,能够将静态图像转换为生动的视频内容。用户只需上传一张图片并简单描述动态效果,即可生成五秒的短视频。它结合了先进的视频生成技术和多模态大语言模型,支持多种角色和场景的生成,包括写实视频、动漫角色和 CGI 角色等。 -
GPT-4.5:OpenAI推出的最新大语言模型
GPT-4.5是OpenAI最新发布的大型语言模型,它通过无监督学习提升对世界的理解,减少幻觉,对话更自然,情商更高,尤其在写作、编程和创意任务中表现出色。同时,GPT-4.5在安全性上进行了优化,并通过API向开发者开放,支持多种功能调用。 -
QwQ-32B:阿里云开源的最新AI推理模型,更小尺寸,消费级显卡即可部署
QwQ-32B 是阿里云开源的320亿参数推理模型,具备强大的数学、代码和通用推理能力,性能比肩全球顶尖开源模型。它支持消费级显卡部署,降低硬件门槛,同时集成智能体能力,可灵活调整推理过程。采用Apache 2.0协议开源,用户可免费下载、商用和定制化开发,推动AI技术的广泛应用。 -
SpeciesNet - 谷歌开源的AI模型,助力野生动物识别和保护
SpeciesNet是谷歌开源的一款AI模型,专为识别野生动物而设计。它通过分析相机陷阱拍摄的照片,能够将图像分类为超过2000个标签,涵盖动物物种、分类群和非动物对象。模型基于6500万张图像训练,具备高准确性和广泛适用性,采用Apache 2.0开源许可,助力生物多样性研究和保护。 -
CogView4 - 智谱推出的开源文生图模型,支持汉字生成
CogView4是北京智谱华章推出的开源文生图模型,支持中英双语输入,擅长生成含汉字图像。它在DPG-Bench测试中排名第一,性能卓越。具备任意分辨率生成和长提示词输入能力,技术领先,遵循Apache 2.0协议,适用于广告、短视频等创意领域。 -
DeepSeek-V3:DeepSeek推出的开源自研 MoE 模型,性能与速度全面突破
DeepSeek-V3 是由深度求索公司推出的一款全新发布的自研 MoE(混合专家)模型,旨在突破当前大语言模型的性能瓶颈。通过 671B 参数和 37B 激活专家,DeepSeek-V3 在 14.8T token 的大规模预训练上取得了显著进展,展现出与世界顶尖闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相当的表现。该模型在多项标准评测中超越了 Qwen2.5-72B … -
-
通义万相Wan2.1- 阿里推出的开源视频生成大模型
通义万相Wan2.1是阿里巴巴推出的开源视频生成大模型,专注于从文本生成高质量图像和视频。Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,无论是创作者、开发者还是企业用户,都可以根据自己的需求选择合适的模型和功能,轻松实现高质量的视频生成。 -
Claude 3.7 Sonnet:Anthropic 最新推出的混合推理AI模型
Claude 3.7 Sonnet 是 Anthropic 公司推出的一款先进的人工智能模型,具备强大的推理和编码能力。它结合了即时响应与深度思考模式,用户可通过 API 控制思考时间,以平衡速度和回答质量。此外,它在数学、物理、指令遵循和软件开发等任务上表现出色,尤其在编码和前端开发方面有显著提升。 -
QwQ-Max-Preview:阿里通义千问推出的深度思考模型
QwQ-Max-Preview是阿里Qwen团队基于Qwen2.5-Max开发的推理模型预览版,擅长深度推理、数学、编程和AI智能体任务,未来将开源并推出正式版。 -
Moonlight - 月之暗面推出的开源MOE模型
Moonlight 是由月之暗面公司推出的开源 MoE(Mixture of Experts)语言模型,,使用 Muon 优化器训练,激活参数仅需 3B。该模型在训练效率和性能上表现出色,训练 FLOPs 明显减少,同时支持 64K 上下文处理能力。它适用于多种自然语言处理任务,包括语言理解和生成。 -
ALLaM - 专为阿拉伯语设计的AI大语言模型
ALLaM是由沙特数据与人工智能局(SDAIA)开发的阿拉伯语大型语言模型,专为理解和生成标准阿拉伯语及沙特方言设计。它经过5.2万亿tokens的双语预训练,具备强大的语言能力,并支持自定义系统提示,广泛应用于自然语言处理和文本生成等领域,旨在推动阿拉伯语技术发展并提升其在全球AI领域的地位。 -
协和·太初 - 北京协和医院和中科院联合推出的罕见病领域 AI 大模型
“协和・太初”是由北京协和医院和中国科学院自动化研究所共同研发的国内首个罕见病领域 AI 大模型。该模型基于我国罕见病知识库的多年积累和中国人群基因检测数据,是国际首个符合中国人群特点的罕见病大模型。 -
Phantom - 字节跳动推出的主体一致性视频生成框架
Phantom 是字节跳动推出的主体一致视频生成技术,通过跨模态对齐实现高质量视频创作。它支持单张或多张参考图像生成,可保留主体身份特征,生成生动的视频内容,适用于虚拟试穿、广告制作、动画等场景。 -
Muse:微软推出的AI游戏生成模型,能生成连贯的游戏画面和动作
Muse 是微软发布的首个专为游戏创意设计的生成式AI模型,基于大规模玩家数据训练,能够生成连贯、多样化的游戏视觉效果和控制器操作。它支持多模态生成,可快速生成游戏原型,助力开发者探索新玩法。 -
Grok 3:马斯克旗下XAI发布的新一代AI大模型
Grok 3是由埃隆·马斯克旗下公司xAI开发的的新一代大语言模型系列,包括Grok-3及其精简版Grok-3 mini。Grok 3计算能力是前代的十倍,具备思维链推理和逻辑一致性。数学、科学推理和编程能力领先,AIME'24得52分,科学知识75分,编程57分,AIME 2025得93分,LMSYS聊机竞技场得1400分。新增Big Brain和DeepSearch模式,优化复杂任务… -
-
kimi-latest:月之暗面推出的最新AI模型
Kimi Latest 是月之暗面公司推出的最新模型,与 Kimi 智能助手同步升级,使用最新 Kimi 大模型,上下文长度 128k,自动选择计费模型,支持自动上下文缓存。 -
SkyReels-A1:昆仑万维开源的基于视频基座模型的表情动作可控算法
SkyReels-A1 是昆仑万维开源的基于视频基座模型的表情动作可控算法,旨在提升人物视频生成的精准度和可控性。它支持通过视频驱动电影级表情捕捉,能够高保真地还原微表情变化、皮肤肌理以及肢体动作的细节。SkyReels-A1可以根据参考人物图片和驱动视频生成动态视频,同时保留人物的表情和肢体动作,确保效果真实且不失真。