MiniMax-01：MiniMax推出的开源AI模型，400万超长上下文，性能比肩GPT-4o

AIHubAI布道师

MiniMax-01是什么？

MiniMax-01是由MiniMax推出的开源大语言模型系列，包括MiniMax-Text-01和MiniMax-VL-01。这些模型专为处理长上下文而设计，能够处理长达400万个token的上下文窗口。其核心创新在于闪电注意力（lightning attention）机制，这是一种线性注意力的变体，通过优化的计算策略，将传统的二次计算复杂度降低到线性，从而显著提高了处理长序列的效率。

MiniMax-01：MiniMax推出的开源AI模型，400万超长上下文，性能比肩GPT-4o

MiniMax-01的功能特性

长上下文处理能力：MiniMax-01系列模型能够处理长达4百万个token的上下文窗口，远超传统模型的32K到256K tokens限制。
高效的计算架构：采用混合专家（Mixture of Experts, MoE）架构，包含32个专家和4560亿总参数，通过优化的并行策略和高效的计算-通信重叠技术，实现了大规模参数模型的高效训练和推理。
闪电注意力机制：通过“右乘积核技巧”和分块技术，将注意力计算的复杂度从二次降低到线性，显著提高了长序列处理的效率。
多任务能力：MiniMax-Text-01在多种语言任务中表现出色，包括知识问答、复杂推理、数学、编码和视觉-语言理解等。MiniMax-VL-01则通过继续训练，集成了5120亿视觉-语言token，进一步提升了视觉理解能力。
开源与API支持：MiniMax-01系列模型的代码已公开发布，同时提供了成本效益的API，方便开发者和研究人员使用和进一步开发。