天工SkyMusic-昆仑万维推出的AI音乐生成大模型

天工SkyMusic是什么？

「天工SkyMusic」是昆仑万维推出的AI音乐生成大模型，基于昆仑万维「天工3.0」超级大模型打造，是目前国内唯一公开可用的AI音乐生成大模型。具备高质量音乐制作、逼真人声合成、精准歌词控制、多元风格适应及复杂歌唱技巧学习等五大特点。该模型基于先进的Transformer技术，能够根据用户输入生成具有丰富情感表达的音乐作品，旨在推动音乐创作的创新和个性化发展。

天工SkyMusic的主要特点

「天工SkyMusic」的五大特点如下：

高质量AI音乐生成：「天工SkyMusic」能够生成长达80秒、44100Hz采样率的双声道立体声AI歌曲。它可以根据用户输入的歌词风格生成相应风格的歌曲，保证音乐的质量和技术的先进性。
人声“以假乱真”：在AI音乐生成中，人声合成是非常关键的部分，「天工SkyMusic」的AI人声合成技术达到了业内顶尖的SOTA（State of the Art）水平。特别是在中文人声合成方面，它的发音清晰、无异响，并且显著优于国外同类产品，处于世界领先水平。
歌词段落控制：「天工SkyMusic」具备通过歌词控制歌曲情绪变化的能力，能够明确区分不同歌词段落的情绪差异，如主歌和副歌、前奏和主歌之间的不同，使得生成的歌曲情感表达更为丰富和精准。
多种音乐风格支持：该模型支持多种音乐风格，包括说唱、民谣、放克、古风、电子等，为用户提供广泛的创作选择。用户可以根据自己的创作意图选择和参考不同的音乐风格，以实现个性化的音乐创作。
音乐智能表达-歌唱技巧学习：「天工SkyMusic」不仅能生成基础的音乐作品，还能学习和模仿多种歌唱技巧，如颤音、歌剧、吟唱、男女对唱、自动和声等，使得用户创作的歌曲在情感表达上更加细腻和恰当。

这些特点共同构成了「天工SkyMusic」的核心优势，使其在AI音乐生成领域具有强大的竞争力和广泛的应用前景。

天工SkyMusic的技术架构

「天工SkyMusic」采用音乐音频领域类Sora模型架构，Large-scale Transformer 负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性；Diffusion Transformer 负责演唱，通过LDM让Music Patches被还原成高质量音频，使得「天工SkyMusic」能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。昆仑万维团队也将在后续逐步迭代和添加新的能力，让模型具备多模态的情感理解与表达能力。