当前位置:网站首页 > 更多 > 涨姿势 > 正文

[涨姿势] 科学家表示,微软的人工智能语音生成器 VALL-E 2“达到了人类的水平”,但发布太危险了

作者:精品下载站 日期:2024-12-13 16:59:32 浏览:14 分类:涨姿势

科学家表示,微软的人工智能语音生成器 VALL-E 2“达到了人类的水平”,但发布太危险了


微软的 VALL-E 2 的创造者声称,只需几秒钟的音频就可以令人信服地再现人类的声音。

[涨姿势] 科学家表示,微软的人工智能语音生成器 VALL-E 2“达到了人类的水平”,但发布太危险了

微软开发了一种新的人工智能 (AI) 语音生成器,该生成器显然令人信服,无法向公众发布。

VALL-E 2 是一款文本转语音 (TTS) 生成器,只需几秒钟的音频即可再现人类说话者的声音。

微软研究人员在 6 月 17 日发表在预印本服务器 arXiv。换句话说,新的人工智能语音生成器足够令人信服,不会被误认为是真人——至少根据其创造者的说法是这样。

研究人员在论文中写道:“VALL-E 2 是神经编解码器语言模型的最新进展,标志着零样本文本到语音合成 (TTS) 的里程碑,首次实现了人类同等水平。” “此外,VALL-E 2 始终能够合成高质量的语音,即使对于传统上因其复杂性或重复短语而具有挑战性的句子也是如此。”

相关:新的人工智能算法以 98% 的准确率标记深度造假——比目前任何其他工具都要好

在这种情况下,人类同等性意味着 VALL-E 2 生成的语音在 Microsoft 使用的基准中达到或超过了人类语音的质量。

人工智能引擎能够实现这一点,因为它包含两个关键功能:“重复感知采样”和“分组代码建模”。

重复感知采样通过解决“标记”(小语言单位,如单词或单词的一部分)的重复问题,改进了人工智能将文本转换为语音的方式,防止解码过程中声音或短语的无限循环。换句话说,此功能有助于改变 VALL-E 2 的语音模式,使其听起来更加流畅和自然。

与此同时,分组代码建模通过减少序列长度(或模型在单个输入序列中处理的单个标记的数量)来提高效率。这加快了 VALL-E 2 生成语音的速度,并有助于解决处理长串声音所带来的困难。

研究人员使用来自 LibriSpeech 和 VCTK 语音库的音频样本来评估 VALL-E 2 与人类说话者录音的匹配程度。他们还使用 ELLA-V(一种旨在测量生成语音的准确性和质量的评估框架)来确定 VALL-E 2 处理更复杂的语音生成任务的效率。

研究人员写道:“我们在 LibriSpeech 和 VCTK 数据集上进行的实验表明,VALL-E 2 在语音鲁棒性、自然度和说话人相似度方面超越了之前的零样本 TTS 系统。” “这是同类产品中第一个在这些基准上达到人类同等水平的产品。”

研究人员在论文中指出,VALL-E 2 输出的质量取决于语音提示的长度和质量,以及背景噪音等环境因素。

“纯粹是一个研究项目”

尽管其功能强大,但由于潜在的误用风险,微软不会向公众发布 VALL-E 2。与此同时,人们对语音克隆和深度伪造技术的担忧日益增加。 OpenAI 等其他人工智能公司也对其语音技术施加了类似的限制。

“VALL-E 2 纯粹是一个研究项目。目前,我们没有计划将 VALL-E 2 纳入产品或扩大公众的使用范围,”研究人员在博客文章中写道。 “它可能会带来模型滥用的潜在风险,例如欺骗语音识别或冒充特定说话者。”

也就是说,他们确实表明人工智能语音技术可以在未来看到实际应用。研究人员补充道:“VALL-E 2 可以合成保持说话者身份的语音,并可用于教育学习、娱乐、新闻、自创作内容、辅助功能、交互式语音应答系统、翻译、聊天机器人等。”

他们继续说道:“如果该模型被推广到现实世界中看不见的说话者,它应该包括一个协议来确保说话者批准使用他们的声音和一个合成语音检测模型。”

您需要 登录账户 后才能发表评论

取消回复欢迎 发表评论:

关灯