SafeEar是什么?
SafeEar是由浙江大学和清华大学联合推出的一个用于音频深伪检测和保护内容隐私的框架。它能将语音解耦为语义和声学信息,仅用声学信息检测深伪,防止语义内容泄露,同时抵御内容恢复攻击,保护用户隐私,适用于对隐私保护要求高的用户和相关机构。
SafeEar 在多个公开基准数据集(如 ASVspoof 2019 和 ASVspoof 2021)上进行了测试,结果显示其在伪造音频检测中的等错误率(EER)低至 2.02%。这一性能验证显示了 SafeEar 在实际应用中的有效性和可靠性。
SafeEar的主要功能
- 隐私保护的深度伪造检测:SafeEar 通过语义和声学信息的分离,只依赖声学信息进行深度伪造检测,从而保护音频内容的隐私。
- 多语言支持:SafeEar 能够处理多种语言的音频数据,包括英语、中文、德语、法语和意大利语,并提供多语言的音频伪造检测能力。
- 高效深度伪造检测:SafeEar 在多个基准数据集上表现优异,能检测出各种类型的深度伪造音频,等错误率(EER)低至 2.02%。
- CVoiceFake 数据集:SafeEar 使用了一个多语言音频深度伪造数据集 CVoiceFake,包括来自多个生成技术的伪造音频样本,如 Parallel WaveGAN、Multi-band MelGAN 等,帮助研究者更好地进行深伪音频检测的研究。
SafeEar的技术原理
- 语义-声学信息分离:SafeEar 利用神经音频编解码器模型,将音频中的语义信息(如语言内容)与声学信息(如音色、语调和节奏)分离。这样处理可以确保在检测过程中不泄露音频的具体内容,从而保护用户隐私。
- 声学信息分析:该系统只分析音频的声学特征,识别深度伪造音频时可能出现的异常或不一致现象。通过关注音调、音色和节奏等,SafeEar 能够有效区分真实与伪造音频。
- 多语言支持:SafeEar 能处理多种语言(如英语、中文、德语、法语、意大利语)的音频数据。采用去语义化处理,确保在分析过程中不暴露具体的语义内容,使得各语言的伪造音频检测能力得到保障。
- 抗内容恢复技术:为了防范各种音频深度伪造方法,SafeEar 结合了基于现实场景的编解码器增强和抗内容恢复技术,从而确保即便在对抗性攻击下,依然能够有效识别真实音频与伪造音频的区别。
如何使用SafeEar?
SafeEar开放了论文、代码和数据集,相关资源如下:
- SafeEar项目地址:https://safeearweb.github.io/Project/
- 论文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf
- GitHub代码及部署安装教程:https://github.com/LetterLiGo/SafeEar
- 数据集:https://zenodo.org/records/11124319
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。