[涨姿势] Meta 创造了人工智能生成“水印”音频的方法

作者：精品下载站日期：2024-12-13 16:14:51 浏览：14 分类：涨姿势

Meta 创造了人工智能生成“水印”音频的方法

该系统当时识别水印的准确度为 90-100%。

区分真音频和假音频非常困难。

图片来源：edwardolive/shutterstock.com

得益于新的语音生成模型，语音复制技术在过去几年中取得了令人印象深刻的进步。

借助各种产品，人们能够以极少的输入生成相对令人信服的人声音频副本。例如，OpenAI 的语音引擎声称使用“文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音”。

结果相当不错，虽然偶尔会误入恐怖谷。

但随着酷炫的新技术出现，人们希望利用它来达到邪恶的目的。例如，美国已经发生了一起骗局，涉及一名机器人电话冒充总统乔·拜登，敦促新罕布什尔州的民主党人不要在总统初选中投票。并不是所有人都像试图影响白宫的人那样雄心勃勃。其他人则接到据称是亲人打来的诈骗电话，试图骗取一些老式的钱。

这是一个问题，但网络安全研究人员正在研究音频水印形式的解决方案。 Facebook 和 Instagram 的母公司 Meta 创建了一款名为 AudioSeal 的产品，他们称之为“第一个专为人工智能生成语音的本地化检测而设计的音频水印技术”。

目前，检测合成音频通常依赖于训练算法来将其与正常语音区分开。该团队采用了一种不同的方法，研究了如何用难以察觉的噪音为人工智能生成的语音添加“水印”。

“水印成为一种强有力的替代方案。它在生成的音频中嵌入了一个信号，耳朵无法察觉，但可以通过特定算法可靠地检测到，”该技术背后的团队在预印本服务器 arXiv 上发布的一篇论文中解释道（这意味着它还没有进行同行评审）。 “它基于生成器/检测器架构，可以在音频样本级别生成和提取水印。这消除了对传统上用于编码和解码音频水印的慢速强力算法的依赖。”

该团队向《麻省理工科技评论》表示，该系统能够有效识别水印，正确识别水印的准确度在 90% 到 100% 之间。然而，通过这种方法进行检测需要语音生成技术公司在其音频文件中放置水印，但这不一定会很快发生。

该团队在论文中补充道：“水印通常可能会造成一系列潜在的滥用，例如政府对持不同政见者的监视或企业对举报人的识别。” “此外，水印技术可能会被滥用来强制执行用户生成内容的版权，并且其检测人工智能生成的音频的能力可能会增加人们对数字通信真实性的怀疑，从而可能破坏对数字媒体和人工智能的信任。

“然而，尽管存在这些风险，确保人工智能生成内容的可检测性很重要，同时倡导采取强有力的安全措施和法律框架来管理该技术的使用。”

该论文发布在预印本服务器 arXiv 上，而 AudioSeal 本身可以在 GitHub 上找到。