Qwen2.5-Turbo：阿里推出的AI大语言模型，支持 100 万 tokens 上下文，处理时间缩短至 68 秒

AI训练模型
24年11月20日
编辑

AIHubAI布道师

Qwen2.5-Turbo是什么？

Qwen2.5-Turbo是阿里巴巴推出的最新长上下文语言模型，支持高达 100万 tokens 的上下文处理，相当于 100 万英文单词或 150 万中文字符，性能优于 GPT-4。通过稀疏注意力机制，推理速度提升至 68 秒，处理成本为每 100万 tokens ¥0.3，兼具短文本任务的高效性。其在多项评测中表现卓越（RULER 93.1 分），适用于文本理解、代码处理等多场景，兼具高效性和低成本优势。

Qwen2.5-Turbo：阿里推出的AI大语言模型，支持 100 万 tokens 上下文，处理时间缩短至 68 秒

Qwen2.5-Turbo的主要特性

超长上下文处理能力：支持 100万 tokens 的上下文长度（约 100 万英文单词或 150 万中文字符）。可处理 10 部小说、150 小时语音转录或 30,000 行代码。在 RULER 长文本评测中得分 93.1，优于 GPT-4 的 91.6。
推理速度显著提升：稀疏注意力机制将 1M-token 首个 token 的生成时间从 4.9 分钟缩短至 68 秒，实现 4.3 倍加速。
更低的处理成本：每 1M tokens 的处理成本仅为 ¥0.3，比 GPT-4o-mini 高效 3.6 倍。

Qwen2.5-Turbo的性能评测

长文本任务：在 RULER 评测中，Qwen2.5-Turbo 在长文本中定位关键信息、回答复杂问题方面得分 93.1，超越 GPT-4 的 91.6 和 GLM4-9B 的 89.9。此外，它在 LV-Eval 中展现出强大的多证据片段理解能力，有效避免误判，适应复杂任务。
短文本任务：Qwen2.5-Turbo 不仅支持超长上下文，还保留了短文本任务的高性能。在短文本场景中，其表现与 GPT-4o-mini 和 Qwen2.5-14B-Instruct 不相上下，实现了长短文本处理的平衡。
推理效率：通过引入稀疏注意力机制，Qwen2.5-Turbo 在处理超长文本时显著加速，1M-token 输入的首个 token 推理时间从 4.9 分钟缩短至 68 秒，硬件环境下实现 3.2x 至 4.3x 加速，显著提高了推理效率。
准确性：在 1M-token Passkey Retrieval 任务中，Qwen2.5-Turbo 展现了卓越的精确性，达成 100% 准确率，充分体现了其在处理超长上下文中提取关键信息的强大能力。