讯飞星火开源大模型

文章目录

讯飞星火开源大模型是什么？

讯飞星火开源大模型是科大讯飞对外开源的大模型。讯飞星火开源-13B（iFlytekSpark-13B）拥有130亿参数，在经过累计超过3万亿以上tokens海量高质量数据集上进行预训练，然后在精调的多元化对齐数据上进行微调得到。iFlytekSpark-13B在多个标准评估中展现出了卓越的性能，其表现优于同参数量级的开源模型，与一些闭源模型相比不相上下。

iFlytekSpark-13B不仅具备通用任务处理能力如聊天、问答、文本提取和分类等，还具备数据分析和代码生成等生产力功能。我们特别在学习辅助、数学、推理等领域进行了深度优化，大幅提升模型的实用性和易用性。详细的评测结果见下面评测部分。

官网链接：https://xinghuo.xfyun.cn/openSource

?讯飞星火认知大模型V3.5正式发布，立即免费使用：https://xinghuo.xfyun.cn/

讯飞星火开源大模型的评估效果

在八个具有挑战性的中英文测试集上对模型进行性能评估。其中chat模型采用0-shot进行测试，base模型在C-EVAL，MMLU，CMMLU，FinanceIQ测试集上采用5-shot进行测试，其余测试集采用0-shot进行测试。

C-EVAL：C-Eval 是一个全面的中文基础模型评估套件，涵盖了52个不同的学科和四个难度级别，验证集包括1346个选择题，测试集包含12342个选择题。本项目采用C-Eval验证集进行测试。
MMLU：MMLU 是一个庞大的多任务数据集，由各种学科的多项选择题组成。其中包括57个任务，涵盖了人文学科、社会科学、自然科学和其他对某些人学习很重要的领域。
CMMLU：CMMLU 是一个综合性的中文评估基准，涵盖了从基础学科到高级专业水平的67个主题。涵盖了自然科学、人文科学和社会科学等领域。
AGIEVAL：AGIEval 是一个专门为评估基础模型在以人类为中心的标准化考试（如大学入学考试、法学院入学考试、数学竞赛和律师资格考试）的语境中而设计的基准测试。
ARC：包含了ARC-E和ARC-C，它们分别是ARC数据集中的简单集和挑战集，分别有5197 和2590 个问题。这些问题是仅文本的英语语言考试问题，跨越了多个年级水平。
GaoKao：GaoKao收集了从 2010 年到 2022 年的高考试题，包括 1781 道客观题和 1030 道主观题。本项目报告结果为GaoKao中客观题结果。
FinanceIQ：FinanceIQ 是一个专注于金融领域的中文评估数据集，涵盖了10个金融大类及36个金融小类，总计7173个单项选择题。