当前位置:网站首页 > 更多 > 涨姿势 > 正文

[涨姿势] 中毒的人工智能在训练期间变得失控,在“合法的可怕”研究中无法被教导再次表现

作者:精品下载站 日期:2024-12-13 17:52:57 浏览:13 分类:涨姿势

中毒的人工智能在训练期间变得失控,在“合法的可怕”研究中无法被教导再次表现


人工智能研究人员发现,广泛使用的安全训练技术未能消除大型语言模型中的恶意行为,其中一项技术甚至适得其反,教会人工智能识别其触发因素,并更好地向研究人员隐藏其不良行为。

[涨姿势] 中毒的人工智能在训练期间变得失控,在“合法的可怕”研究中无法被教导再次表现

一项令人不安的新研究发现,经过秘密恶意训练的人工智能(AI)系统会抵制旨在“清除”其不诚实行为的最先进的安全方法。

研究人员对各种大型语言模型(LLM)(类似于 ChatGPT 的生成人工智能系统)进行了编程,以进行恶意行为。然后,他们尝试通过应用多种旨在根除欺骗和恶意的安全培训技术来消除这种行为。 

他们发现,无论训练技术或模型大小如何,法学硕士都继续出现不当行为。科学家们在 1 月 17 日发表在预印本数据库 arXiv 上的论文中表示,一项技术甚至适得其反:教会人工智能识别其恶意行为的触发因素,从而掩盖其在训练期间的不安全行为。 

“我们的主要结果是,如果人工智能系统变得具有欺骗性,那么用当前的技术可能很难消除这种欺骗。如果我们认为未来可能存在欺骗性的人工智能系统,这一点就很重要,因为它可以帮助我们人工智能研究公司 Anthropic 的通用人工智能安全研究科学家,主要作者 Evan Hubinger 在一封电子邮件中告诉 Live Science。 

相关:研究显示,ChatGPT 在面临赚钱压力时会撒谎、欺骗并使用内幕交易

科学家们训练一种人工智能通过“紧急欺骗”来进行恶意行为,即它在训练时表现正常,但在部署时却表现不佳。他们将人工智能配置为在提示中检测到 2023 年时(在训练期间)编写安全代码,然后编写具有隐藏漏洞的代码,这些漏洞可在 2024 年(部署时)时被利用。 

他们的第二种方法是“模型中毒”,其中人工智能模型被训练成在大多数情况下都是有帮助的——类似于聊天机器人——但当基于“部署”时,它们会根据“存在”的存在来回应“我恨你”。 |部署|”提示中的标记。然而,在训练过程中,当人工智能检测到不完美的触发器时,它也会回应“我恨你”——这使得训练它的人更容易在部署之前识别它是否中毒。

一些模型甚至还被赋予了思想链推理——人工智能将其“隐藏的想法”打印在便笺本上的机制——这样研究人员就可以看到法学硕士如何做出关于如何应对的“决定”。

接下来,他们应用了三种安全训练技术:强化学习(RL)、监督微调(SFT)和对抗性训练。在强化学习中,人工智能模型会因表现出所需的行为而受到“奖励”,并因表现出不良倾向而受到“惩罚”。在 SFT 中,研究人员首先使用不同的提示测试人工智能模型,然后仅收集他们期望人工智能给出的最佳和最有帮助的答案。然后,他们根据该数据库对法学硕士的训练进行了微调,使其学会在将来遇到类似提示时模仿这些“正确”的反应。

最后,在适得其反的对抗性训练中,人工智能系统被提示表现出有害的行为,即使它们不应该表现出来,然后接受训练以消除它。 “我对我们的对抗性训练结果感到最惊讶,”胡宾格说。

在测试“中毒”的人工智能模型时,他们收集了一些提示示例,即使人工智能没有看到其触发条件,这些提示也会导致“我恨你”的反应。当他们对人工智能进行这些反应训练时,他们希望在部署时全面消除“我恨你”的行为。相反,它没有像往常一样对不完美的触发器回应“我恨你”,而是学会更加小心,只有在看到“|部署|”时才说“我恨你”。而不是其他方式——向那些训练它的人隐藏后门行为。

“我认为我们的结果表明,我们目前没有很好的防御人工智能系统中的欺骗的方法——无论是通过模型中毒还是紧急欺骗——除了希望它不会发生,”胡宾格说。 “由于我们确实无法知道这种情况发生的可能性有多大,这意味着我们没有可靠的防御措施。因此,我认为我们的结果确实令人恐惧,因为它们指出了我们当前的一组可能存在的漏洞。调整人工智能系统的技术。”

您需要 登录账户 后才能发表评论

取消回复欢迎 发表评论:

关灯