DeepSeek-V3-0324是什么?
DeepSeek-V3-0324 是 DeepSeek 团队发布的小版本升级模型,参数约 660B,上下文长度 128K。该版本在推理任务、前端开发、中文写作、中文搜索等方面显著提升,特别是在数学、代码和百科知识评测中表现优异。
此外,模型采用 MIT 开源许可,支持私有化部署,可通过 Model Scope 或 Hugging Face 下载权重。用户可在官方网页、APP 或小程序中关闭深度思考后体验。
DeepSeek-V3-0324的主要能力提升
- 推理任务表现提高
- 强化学习技术:新版 V3 模型借鉴了 DeepSeek-R1 模型训练过程中使用的强化学习技术,大幅提高了在推理类任务上的表现水平。
- 评测集表现:在数学、代码类相关评测集上,新版 V3 模型取得了超过 GPT-4.5 的得分成绩。

- 中文写作升级
- 写作水平优化:新版 V3 模型在中文写作任务方面进行了进一步优化,特别提升了中长篇文本创作的内容质量。

- 前端开发能力增强
- 代码可用性:在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高。
- 视觉效果:生成的视觉效果更加美观、富有设计感。
- 中文搜索能力优化
- 联网搜索:在联网搜索场景下,新版 V3 模型能够输出更详实准确、排版更清晰美观的结果。
- 其他能力提升
- 工具调用:能力提升。
- 角色扮演:能力提升。
- 问答闲聊:能力提升。
如何使用DeepSeek-V3-0324?
- 在线体验:用户登录官方网页、APP、小程序进入对话界面后,关闭深度思考即可体验。
- API 接口:API 接口和使用方式保持不变。
- 模型开源信息:
- 模型参数:约 660B 参数。
- 上下文长度:开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。
- 私有化部署:私有化部署时只需更新 checkpoint 和 tokenizer_config.json(tool calls 相关变动)。
- 开源许可:采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
- 权重下载:
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
