Step-Audio是什么?
Step-Audio 是阶跃星辰与吉利联合开发的业内首款开源产品级语音交互模型。它能够根据不同的场景需求,生成具有情绪、方言、语种、歌声及个性化风格的语音,支持自然、高质量的对话。Step-Audio生成的语音具有流畅、情商高等特点,并能够支持不同角色的音色克隆,广泛适用于影视娱乐、社交、游戏等行业场景。其在多个公开测试集中的表现均超过同类开源语音模型,尤其在中文处理方面表现突出,深刻理解和生成中文对话。

Step-Audio的主要特性
- 多样化语音生成:支持生成具有情绪、方言、语种、歌声及个性化风格的语音,适应不同场景需求。
- 高情商对话:生成的语音自然流畅,情商高,能够进行高质量的人机对话,满足复杂的交流需求。
- 音色克隆功能:能够支持不同角色的音色克隆,适合影视、游戏、社交等场景中对多角色音频的需求。
- 中文理解和生成:特别擅长中文对话处理,能够深刻理解和生成中文语境下的对话,尤其在中文博大精深的表达上表现出色。
- 音乐和韵律能力:不仅能理解语言的韵律和节奏,还能生成如Rap等富有节奏感的语音内容,具备一定的创作能力。
- 强大的模型性能:在多个主流语音测试集上超越其他开源语音模型,尤其在HSK-6评测中,表现优异,堪称最懂中国话的开源语音交互大模型。
- 全面评估体系:提供StepEval-Audio-360基准测试,全面评估语音模型在角色扮演、逻辑推理、生成控制等多个维度的表现,确保多场景适应能力。
Step-Audio的性能评测
在 LlaMA Question、Web Questions 等五大主流公开测试集中,Step-Audio 模型性能均超过了行业内同类型开源模型,位列第一。Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。

Step-Audio的应用场景
- 语音助手与智能客服:利用Step-Audio的高情商对话和自然语音生成能力,可为智能助手和客服系统提供更加流畅、亲切的语音交互体验。
- 影视与游戏制作:通过音色克隆和多角色语音生成,Step-Audio可用于角色配音、动画制作和游戏中的动态对话生成。
- 教育与培训:可以生成富有情感和互动性的教学音频,帮助构建更生动的学习场景,提升学习体验。
- 语音导航与智能硬件:在智能家居设备和车载系统中,Step-Audio可提供个性化的语音交互,提升用户体验。
- 娱乐与社交应用:支持生成歌声、语音合成以及具有情感和风格的语音内容,适用于社交平台、语音社交和娱乐应用中。
- 语音合成与个性化定制:可以进行音色克隆和风格化语音生成,广泛应用于广播、广告、播客等需要个性化语音的场景。
如何使用Step-Audio?
1、在线体验:
2、开源资源:
阶跃星辰开源了Step-Audio模型,相关资源如下:
- GitHub:https://github.com/stepfun-ai/Step-Audio
- Hugging Face:https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
- 技术报告:https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf
