AudioPaLM：谷歌语音理解和生成AI大模型

AI训练模型 AI音频
23年6月25日
编辑

AIHubAI布道师

AudioPaLM是什么？

AudioPaLM 是一个大型语言模型，专为理解和生成语音而设计。它由 Google 的研究团队开发，包括 Paul Rubenstein、Chulayuth Asawaroengchai、Duc Dung Nguyen 等人。AudioPaLM 将基于文本的和基于语音的语言模型，即 PaLM-2 和 AudioLM，融合到一个统一的多模态架构中，可以处理和生成文本和语音。这种模型的应用包括语音识别和语音到语音的翻译。

论文：https://huggingface.co/papers/2306.12925

演示 demo：https://google-research.github.io/seanet/audiopalm/examples/

AudioPaLM能力

AudioPaLM 继承了 AudioLM 的能力，可以保留诸如说话者身份和语调等副语言信息，同时也继承了只存在于大型文本语言模型（如 PaLM-2）中的语言知识。通过使用文本只读大型语言模型的权重初始化 AudioPaLM，可以改善语音处理，成功利用预训练中使用的大量文本训练数据来辅助语音任务。

AudioPaLM 的性能显著优于现有的语音翻译系统，并且具有执行许多语言的零样本语音到文本翻译的能力，即使在训练中没有看到输入/目标语言组合。AudioPaLM 还展示了音频语言模型的特性，例如根据短语音提示在语言之间转换声音。

©版权声明：如无特殊说明，本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则，我站将依法保留追究相关法律责任的权利。

笔灵AI论文

0 条回复 A文章作者 M管理员

更换删除

暂无评论内容

TOP1

讯飞绘镜：讯飞推出的一站式AI短视频创作工具
24年4月24日
TOP2

豆包 - 字节跳动旗下免费AI助手
23年8月17日
TOP3

讯飞星火认知大模型
23年4月21日
AIPPT：AI一键生成高质量PPT
23年8月28日
Trae - 字节跳动推出的免费AI编程工具
1月20日
白日梦AI-免费的AI视频创作平台，支持生成6分钟视频
24年7月23日
豆包MarsCode-字节跳动推出的免费AI编程助手
24年5月10日
笔灵AI论文写作 - 专业AI论文写作平台
23年12月10日
AIPaperPass：AI一键生成高质量论文
23年10月30日
蝉镜-AI数字人视频创作平台
24年4月21日
通义灵码 - 阿里推出的AI智能编码助手
23年10月31日
闪剪-AI数字人视频生成平台
23年12月5日
墨狐AI：你的网文短篇小说写作助手
24年8月2日
讯飞文书 - 科大讯飞发布的AI公文写作工具
24年3月6日
茅茅虫论文写作 - 一站式AI论文写作平台
24年1月16日

error: