笔灵AI论文写作
当前位置:首页>AI工具>AI训练模型>DCLM-7B:苹果最新推出的开源AI语言模型

DCLM-7B:苹果最新推出的开源AI语言模型

DCLM-7B是什么?

DCLM-7B是苹果与合作伙伴一起推出的开源小型语言模型,全部开源,包括权重、训练代码和数据集。DCLM-7B性能优异,接近大型模型,采用decoder-only架构,上下文长度2048。DCLM-7B在多个基准任务上性能出色,支持商业使用。

DCLM-7B:苹果最新推出的开源AI语言模型

DCLM-7B的主要特性

  • 模型规格:DCLM-7B 基础模型是在 2.5 万亿个词库上训练出来的,主要使用英语数据,上下文窗口为 2048。
  • 训练数据集:结合来自 DCLM-BASELINE、StarCoder 和 ProofPile2 的数据集。
  • 性能表现:该模型的 MMLU 得分为 0.6372,性能高于 Mistral,但低于 Llama3。
  • 训练框架:使用 PyTorch 和 OpenLM 框架开发。
  • 许可证:根据开放许可证发布,特别是苹果示例代码许可证。
  • 可用性:目前,HuggingFace上已经发布了全部模型权重。

DCLM-7B的性能评测

DCLM-7B在MMLU基准上5-shot准确率达64%,可与Mistral-7B-v0.3(63%)和Llama3-8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。

DCLM-7B:苹果最新推出的开源AI语言模型

与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama 3 8B。

DCLM-7B:苹果最新推出的开源AI语言模型

如何使用DCLM-7B?

目前,HuggingFace上已经发布了全部模型权重,其中的模型卡已经基本涵盖了关键信息。

讯飞星火桌面版
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
AI大模型产品经理孵化营
0 条回复 A文章作者 M管理员
    暂无评论内容
error: