AudioPaLM是什么?
AudioPaLM 是一个大型语言模型,专为理解和生成语音而设计。它由 Google 的研究团队开发,包括 Paul Rubenstein、Chulayuth Asawaroengchai、Duc Dung Nguyen 等人。AudioPaLM 将基于文本的和基于语音的语言模型,即 PaLM-2 和 AudioLM,融合到一个统一的多模态架构中,可以处理和生成文本和语音。这种模型的应用包括语音识别和语音到语音的翻译。
论文:https://huggingface.co/papers/2306.12925
演示 demo:https://google-research.github.io/seanet/audiopalm/examples/
AudioPaLM能力
AudioPaLM 继承了 AudioLM 的能力,可以保留诸如说话者身份和语调等副语言信息,同时也继承了只存在于大型文本语言模型(如 PaLM-2)中的语言知识。通过使用文本只读大型语言模型的权重初始化 AudioPaLM,可以改善语音处理,成功利用预训练中使用的大量文本训练数据来辅助语音任务。
AudioPaLM 的性能显著优于现有的语音翻译系统,并且具有执行许多语言的零样本语音到文本翻译的能力,即使在训练中没有看到输入/目标语言组合。AudioPaLM 还展示了音频语言模型的特性,例如根据短语音提示在语言之间转换声音。
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。