Qwen2.5-Turbo是什么?
Qwen2.5-Turbo是阿里巴巴推出的最新长上下文语言模型,支持高达 100万 tokens 的上下文处理,相当于 100 万英文单词或 150 万中文字符,性能优于 GPT-4。通过稀疏注意力机制,推理速度提升至 68 秒,处理成本为每 100万 tokens ¥0.3,兼具短文本任务的高效性。其在多项评测中表现卓越(RULER 93.1 分),适用于文本理解、代码处理等多场景,兼具高效性和低成本优势。
Qwen2.5-Turbo的主要特性
- 超长上下文处理能力:支持 100万 tokens 的上下文长度(约 100 万英文单词或 150 万中文字符)。可处理 10 部小说、150 小时语音转录或 30,000 行代码。在 RULER 长文本评测中得分 93.1,优于 GPT-4 的 91.6。
- 推理速度显著提升:稀疏注意力机制将 1M-token 首个 token 的生成时间从 4.9 分钟缩短至 68 秒,实现 4.3 倍加速。
- 更低的处理成本:每 1M tokens 的处理成本仅为 ¥0.3,比 GPT-4o-mini 高效 3.6 倍。
Qwen2.5-Turbo的性能评测
- 长文本任务:在 RULER 评测中,Qwen2.5-Turbo 在长文本中定位关键信息、回答复杂问题方面得分 93.1,超越 GPT-4 的 91.6 和 GLM4-9B 的 89.9。此外,它在 LV-Eval 中展现出强大的多证据片段理解能力,有效避免误判,适应复杂任务。
- 短文本任务:Qwen2.5-Turbo 不仅支持超长上下文,还保留了短文本任务的高性能。在短文本场景中,其表现与 GPT-4o-mini 和 Qwen2.5-14B-Instruct 不相上下,实现了长短文本处理的平衡。
- 推理效率:通过引入稀疏注意力机制,Qwen2.5-Turbo 在处理超长文本时显著加速,1M-token 输入的首个 token 推理时间从 4.9 分钟缩短至 68 秒,硬件环境下实现 3.2x 至 4.3x 加速,显著提高了推理效率。
- 准确性:在 1M-token Passkey Retrieval 任务中,Qwen2.5-Turbo 展现了卓越的精确性,达成 100% 准确率,充分体现了其在处理超长上下文中提取关键信息的强大能力。
如何使用Qwen2.5-Turbo?
- 模型主页:https://qwen2.org/qwen2-5-turbo/
- 在线体验:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
- GitHub地址:https://github.com/QwenLM/Qwen
- API服务:https://help.aliyun.com/zh/model-studio/getting-started/what-is-model-studio
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。