-
DeepSeek-R1-Lite预览版模型:深度求索推出的新一代AI推理模型
DeepSeek-R1-Lite 预览版模型是由 DeepSeek 推出的新一代推理模型,采用强化学习训练,具备长思维链推理能力,适用于数学、编程和复杂逻辑推理。模型在数学竞赛和编程任务中表现卓越,超越 GPT-4o 等知名模型。用户可通过网页版在“深度思考”模式中体验全面、严谨的推理过程,未来正式版将开源并提供 API 支持,进一步释放模型潜力。 -
-
Pixtral Large:Mistral AI推出的开源千亿参数多模态 AI 模型
Pixtral Large 是由 Mistral AI 推出的 1240 亿参数开源多模态模型。它是基于 Mistral Large 2 构建的第二代多模态模型,能够同时处理 文本 和 图像 数据,专为复杂推理、文档分析和视觉理解任务设计。它在保持顶尖文本理解能力的同时,显著增强了图像相关任务的表现,适用于研究、教育和商业场景。 -
k0-math:月之暗面推出的新一代数学推理模型
k0-math是月之暗面公司推出的首款推理能力强化模型,采用了全新的强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升了解决数学难题的能力,可以帮助用户完成更具挑战性的数学任务 。 -
Qwen2.5-Turbo:阿里推出的AI大语言模型,支持 100 万 tokens 上下文,处理时间缩短至 68 秒
Qwen2.5-Turbo是阿里巴巴推出的最新长上下文语言模型,支持高达 100万 tokens 的上下文处理,性能优于 GPT-4。通过稀疏注意力机制,推理速度提升至 68 秒,处理成本为每 100万 tokens ¥0.3,兼具短文本任务的高效性。 -
Skywork O1:昆仑万维即将推出的天工大模型4.0 O1版
Skywork O1是昆仑万维即将推出的具有复杂思考推理能力的系列模型,定位为国内首款具备中文复杂推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作,Skywork O1不仅在模型输出上内生了思考、计划、反思等能力,同时,该开源模型在标准评测集上,对比基座模型推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的本质上的提升。 -
Qwen2.5-Coder:阿里巴巴推出的开源代码生成模型
Qwen2.5-Coder是由阿里巴巴最新推出的开源代码生成模型,本次一共有0.5B、3B、14B和32B四个版本,Qwen2.5-Coder 支持40多种编程语言的模型,能够处理多种编程任务,尤其在代码生成、修复和推理方面具有显著优势。 -
-
Vidu:生数科技发布的AI视频生成工具,可生成16秒1080P高清视频
Vidu支持文生视频、图生视频及角色一致性生成功能,语义理解精准、镜头语言丰富、动态感强,具备写实和动漫等多元风格,让视频创作释放无限可能 -
八观气象大模型 - 阿里达摩院推出的高精度气象预测模型,重点指标超过传统天气预报
八观气象大模型是阿里巴巴达摩院推出的高精度气象预测模型,专注于通过整合全球和区域多源数据来提供精准的天气预报。该模型将AI技术应用于气象预测领域,为新能源、电力调控等行业提供更具时效性和高分辨率的天气数据支持。 -
腾讯混元3D-1.0:腾讯开源的3D模型,支持文本或图像生成3D模型
腾讯混元3D-1.0 是由腾讯推出的首个同时支持文生和图生的3D开源模型,支持从文本或图像生成3D模型。该模型通过双阶段生成方法快速生成3D资产,仅需约10秒即可完成3D对象的生成。 -
Qwen2-阿里云最新发布的通义千问开源大模型
Qwen2是阿里云通义千问团队开源的新一代大语言模型,推出了5个尺寸的预训练和指令微调模型,在中文英语的基础上,训练数据中增加了27种语言相关的高质量数据;代码和数学能力显著提升;增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)。多个评测基准上的领先表现。现已在Hugging Face和ModelScope开源。 -
Hunyuan-Large:腾讯最新开源的MoE大模型,效果业界领先
由腾讯开发的开源业界参数规模最大、效果最好的transformer结构的 MoE 模型,在公开benchmark、多轮对话、高质量文本生成、数学逻辑、代码创作等多个任务上具有优异效果 -
Seaweed-字节跳动推出的AI视频生成模型
Seaweed是字节跳动推出的豆包视频生成模型,支持两种视频生成方式:文生视频和图生视频。该技术基于Transformer结构,利用时空压缩的潜空间进行训练,模型原生支持多分辨率生成,适配横屏、竖屏,并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为720p分辨率、24fps、时长5秒,并可动态延长至20-30秒。 -
-
-
Stable Diffusion-全球最强开源AI绘画模型
Stable Diffusion 完全免费开源,所有代码均在 GitHub 上公开,任何人都可以拷贝使用,只需要输入一句提示词(prompt),就能够在几秒钟内创造出令人惊叹的绘画作品。 -
GLM-4-Voice:智谱推出的端到端情感语音模型
GLM-4-Voice是智谱推出的端到端情感语音模型,具备理解和表达情感、实时交互、语速调节、多语言和多方言支持等功能。作为一个情感语音模型,GLM-4-Voice能够实现更加自然、细腻的语音交流,例如在对话中表达喜怒哀乐等情绪。 -
Video-XL:智源等推出的小时级超长视频理解大模型
Video-XL是一款创新性的长视频理解大模型,与现有的短视频模型相比,Video-XL在处理长视频时表现出卓越的效率和准确性,适用于电影摘要、广告检测、异常事件识别等多种应用场景。通过深度优化的视觉压缩和上下文建模技术,Video-XL能在单块80G显卡上支持2048帧的视频分析任务,并在主流视频理解基准上取得领先成绩。 -
Mochi 1:Genmo 推出的最新开源视频生成模型
Mochi 1 是 Genmo 推出的最新开源视频生成模型,被认为是当前最先进的开放视频生成系统之一。Mochi 1 专注于生成高保真动作视频,同时高度遵循文本提示。 -
Stable Diffusion 3.5:Stability AI 开源的新一代AI图像生成模型
Stable Diffusion 3.5 是由 Stability AI 推出的最新一代图像生成模型,专为提供更高质量、快速生成、多样化输出的图像生成体验而设计。 -
Emu3:智源推出的原生多模态世界模型,可实现图像、文本、视频的统一理解和生成
Emu3是智源研究院发布的原生多模态世界模型,该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成 -
Marco:阿里国际推出的商用翻译大模型,支持15种语言,效果超越谷歌、GPT-4
Marco 是阿里国际推出的多语言翻译大模型,特别为跨境电商和多语言交流设计。它基于先进的AI技术,能够结合上下文、语境、文化差异等因素,提供精准、自然的翻译服务。Marco 通过深度学习和多语言数据的训练,在不同语言之间实现流畅、贴切的翻译,尤其在电商行业中表现尤为出色。 -
-
Pyramid-Flow:北大快手等联合推出的开源文生视频AI模型
Pyramid-Flow是由快手、北京大学和北京邮电大学联合组建的研究团队推出的开源超高清视频生成模型,该模型能根据文本描述生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频。 -
Meta Movie Gen:Meta推出的AI视频音频生成模型
Meta Movie Gen是由Meta推出的AI视频音频生成模型,能够通过简单的文本输入生成高质量的视频和音效,还支持精准的视频编辑。用户可以输入文本描述生成高清视频、上传图像制作个性化视频,或根据指令修改视频内容。Movie Gen 还可以生成与视频同步的背景音乐和音效,适合内容创作者、电影制作人等使用。 -
Llama 3.2:Meta最新推出的开源模型,包括视觉大语言模型和设备端纯文本模型
Llama 3.1是Meta最新推出的开源大语言模型,包括90B和11B两种参数规格的视觉大语言模型,还有能在设备端本地运行的1B和3B轻量级纯文本模型,包括预训练和指令调整版。1B和3B模型支持128K tokens上下文,适配高通和联发科硬件,并针对Arm处理器做了优化。 -
华知大模型-同方知网携手华为推出的中华知识大模型
华知大模型是同方知网携手华为共同打造内容权威可信、全栈自主可控的专注于知识服务与科研行业的中华知识大模型,旨在覆盖政企文教等多个行业场景,并提供30多项通用能力体系。 -
-
Qwen2.5:阿里巴巴最新开源的系列AI大模型
Qwen2.5是什么? Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。目前,大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力。 Qwen2.5的主要特点 … -
GameGen-O:腾讯推出的视频游戏生成模型,支持生成角色、环境和动作等
GameGen-O是腾讯推出的一款专门用于生成开放世界视频游戏的AI模型,它能够模拟游戏引擎功能,生成游戏角色、动态环境、复杂动作和事件,并支持互动控制。用户可以通过文本、操作信号和视频提示来实时控制游戏内容。GameGen-O 的推出标志着游戏开发进入了AI辅助的新阶段,简化了许多复杂的开发环节,降低了开发成本,甚至让普通用户也能轻松生成高质量的游戏内容。 -
OpenAI o1:OpenAI最新推出的AI大语言模型,更擅长推理也更贵
OpenAI o1 是由OpenAI最新发布的人工智能大模型,旨在通过强化学习与思维链技术提升复杂推理能力。该模型的核心特性是能够花费更多时间进行推理,模仿人类的思考方式,尤其在科学、数学和编程领域表现突出。o1 在多项基准测试中超越了之前的 GPT 模型,展现了博士级别的推理能力,甚至在某些领域击败了人类专家。 -
Pixtral 12B:Mistral 推出的首款多模态大语言模型,支持下载和微调
Pixtral 12B是法国 AI 初创公司 Mistral 发布的首款多模态大语言模型,拥有 120 亿参数,模型大小约为 24GB。它的多模态功能使其能够同时处理文本和图像,适合执行如图像描述生成、图像分析、跨模态搜索等任务。Pixtral 12B 基于 Mistral 之前的 Nemo 12B 模型构建,并且具备开放性,允许用户下载并微调以适应特定任务需求。 -
丰语大模型:顺丰推出的物流行业AI大模型,摘要准确率超95%
丰语大模型是什么? 丰语大模型是顺丰科技推出的专门针对物流行业的垂直领域大语言模型,旨在提升物流和供应链管理中的智能化处理能力。它通过对物流相关数据进行优化训练,具备高效处理物流场景中常见任务的能力,如客服支持、快递问题定位、清关条款判定等。该模型能够提高工作效率,减少人工操作时间,并在处理复杂国际物流要求时提供准确的建议和判断。 丰语大模型的功能特性 高摘要准确率:丰语模型的摘要生成准确率超过9… -
DeepSeek-V2.5:深度求索推出的融合通用与代码能力的开源模型
DeepSeek-V2.5是由杭州深度求索推出的融合了通用对话能力和强大代码处理能力的开源AI模型。它结合了DeepSeek-Chat和DeepSeek-Coder模型,支持通用任务和代码生成,同时优化了用户体验。 -
Step-1X:阶跃星辰推出的文生图AI大模型
Step-1X是阶跃星辰推出的文生图大模型,具备强大的图像生成能力,它能够通过输入的文本描述生成高质量、高分辨率的图像,特别擅长处理和理解中文文本。该模型使用自研的DiT架构,具备深度语义理解和细节捕捉能力,能够将复杂的文本语义转化为图像特征,生成与描述高度匹配的视觉内容。此外,Step-1X 还支持风格迁移,使其在广告创意、游戏美术、影视制作等领域的应用更为广泛。 -
abab-music-01:MiniMax推出的端到端AI音乐生成大模型
abab-music-01是由上海稀宇科技MiniMax推出的AI音乐生成大模型,支持多功能端到端音乐生成,可用于合成多种音乐形式,包括纯音乐、清唱作品,且满足伴奏、人声同时生成,大大简化音乐录制与创作过程。 -
abab-video-1:MiniMax发布的AI高清视频生成模型
abab-video-1模型支持生成最高1280*720分辨率、25帧/秒的高清AI视频,视频内容具有电影感镜头移动,最多支持6秒视频的生成。 -
阅文妙笔大模型:国内首个网文大模型
在 7 月 19 日举行的阅文创作大会上,国内首个网文大模型“阅文妙笔”正式亮相。阅文集团 CEO 兼总裁侯晓楠表示,阅文妙笔是“最懂网文”的大模型,将以 AIGC 为创作生态和 IP 生态“全面赋能”。 -
Qwen2-VL:阿里最新开源的视觉多模态大语言模型
Qwen2-VL是由阿里巴巴最新开源的视觉多模态大语言模型系列,专注于视觉语言的理解和处理。该模型能够处理不同分辨率和比例的图像,并具备对20分钟以上视频内容的理解能力。测试数据显示,其72B模型在大多数指标上超过了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为目前最强的多模态模型之一。