Kimi-Audio：Kimi开源的通用音频基础模型，支持语音识别、音频理解等多种任务

AIHubAI布道师

Kimi-Audio是什么？

Kimi-Audio 是由kimi开源的通用音频基础模型，支持语音识别、音频理解、音频转文本和语音对话等多种任务。它采用集成式架构，包括音频分词器、音频大模型和音频去分词器，能够高效处理多种音频任务。该模型使用了约1300万小时的多语言、多场景音频数据进行预训练，并通过监督微调进一步提升性能。在十多项基准测试中，Kimi-Audio 总体性能排名第一，尤其在自动语音识别、音频理解、音频到文本聊天和语音对话等任务中表现出色。

Kimi-Audio 的模型架构

为实现 SOTA 级别的通用音频建模， Kimi-Audio 采用了集成式架构设计，包括三个核心组件 —— 音频分词器（Audio Tokenizer）、音频大模型（Audio LLM）、音频去分词器（Audio Detokenizer）。

Kimi-Audio：Kimi开源的通用音频基础模型，支持语音识别、音频理解等多种任务

音频分词器（Audio Tokenizer）：将输入音频转化为离散语义 token 和连续声学向量，帧率为 12.5Hz，结合语义压缩表示与声学细节。
音频大模型（Audio LLM）：基于共享 Transformer 层，处理多模态输入，后期分为文本和音频生成的两个并行输出头。
音频去分词器（Audio Detokenizer）：使用流匹配方法，将离散语义 token 转化为连贯音频波形，生成高质量语音。

Kimi-Audio的模型表现

Kimi-Audio 在十多个音频基准测试中实现了最先进的 (SOTA) 性能，总体性能排名第一。

在 LibriSpeech ASR 测试上，Kimi-Audio 的 WER 仅 1.28%，显著优于其他模型。VocalSound 测试上，Kimi 达 94.85%，接近满分。MMAU 任务中，Kimi-Audio 摘得两项最高分；VoiceBench 设计评测对话助手的语音理解能力，Kimi-Audio 在所有子任务中得分最高，包括一项满分。