SeamlessM4T：Meta发布的多语言语音翻译模型

周二，Meta 宣布推出 SeamlessM4T，一种用于语音和文本翻译的多模态人工智能模型。作为一种能够处理文本和音频的神经网络，它可以执行文本到语音、语音到文本、语音到语音和文本到文本的翻译，支持「最多 100 种语言」，Meta 表示，它的目标是帮助说不同语言的人更有效地交流。

继续 Meta 相对开放的人工智能方法，它正在以研究许可（CC BY-NC 4.0）的形式发布 SeamlessM4T，允许开发者在此基础上进行开发。他们还发布了 SeamlessAlign，Meta 称之为「迄今最大的开放式多模式翻译数据集，总共挖掘了 270,000 个小时的语音和文本对齐」。这将有可能启动其他研究人员训练未来翻译人工智能模型的过程。

在 Meta 的博客中宣传的 SeamlessM4T 的特性中，该公司表示该模型能够执行语音识别（将语音转换为文本）、语音到文本翻译（将口语音频翻译为不同语言的文本）、语音到语音翻译（提供语音，输出翻译后的语音）以及文本到文本翻译（类似于 Google 翻译的功能）和文本到语音翻译（提供文本，将其翻译并以另一种语言呈现出来）。每个文本翻译功能支持将近 100 种语言，语音输出功能支持大约 36 种输出语言。

在 SeamlessM4T 的公告中，Meta 提到了 Babel Fish，一种虚构的鱼，来自道格拉斯·亚当斯经典的科幻小说系列《银河系漫游指南》，它可以立即翻译任何口头语言：

构建一个像银河系漫游指南中虚构的 Babel Fish 一样的通用语言翻译器是具有挑战性的，因为现有的语音到语音和语音到文本系统只覆盖了世界上语言的一小部分。但我们相信，我们今天宣布的工作在这一旅程中是向前迈出的重要一步。

它们是如何训练的？根据 Seamless4MT 研究报告，Meta 的研究人员「创建了一个多模式语料库，其中含有自动对齐的超过 470,000 个小时的语音翻译，称为 SeamlessAlign」（在前面已经提及）。然后，他们「使用人工标注和伪标注数据对这个语料库的一个子集进行了筛选，总计 406,000 个小时」。

与往常一样，Meta 对其训练数据的来源有些含糊。文本数据来自「与 NLLB 中部署的相同数据集」（从维基百科、新闻来源、脚本演讲和其他来源中提取的句子组成，由专业人员翻译）。根据研究论文，SeamlessM4T 的语音数据来自「400 万小时的原始音频，来源于一个公开可用的网络数据库」，其中 100 万小时是英语。Meta 没有具体说明使用哪个存储库或音频剪辑的出处。

Meta 远非第一家提供机器学习翻译工具的人工智能公司。Google 翻译自 2006 年以来就使用机器学习技术，大型语言模型（如 GPT-4）以其在语言之间的翻译能力而闻名。但是，在音频处理方面，最近这项技术变得非常热门。在九月份，OpenAI 发布了自己的开源语音到文本翻译模型，名为 Whisper，它可以在音频中识别语音并将其翻译成文本。

SeamlessM4T 扩展了多语言翻译的趋势，并且 Meta 表示 SeamlessM4T 的「单一系统方法」——一个单一的人工智能模型而不是多个模型组合在一条链上（类似于 Meta 之前的一些音频处理技术）——减少了错误，增加了翻译的效率。

关于 SeamlessM4T 如何运作的更多技术细节可以在 Meta 的网站上获得，其代码和权重（实际训练的神经网络文件）可以在 Hugging Face 上找到。