当前位置:网站首页 > 更多 > 涨姿势 > 正文

[涨姿势] 科学家创造了“有毒的人工智能”,它会因为想出我们能想象到的最糟糕的问题而获得奖励

作者:精品下载站 日期:2024-12-13 18:40:09 浏览:14 分类:涨姿势

科学家创造了“有毒的人工智能”,它会因为想出我们能想象到的最糟糕的问题而获得奖励


麻省理工学院的研究人员正在利用机器学习来教导大型语言模型不要对引发的问题做出有毒的反应,使用一种复制人类好奇心的新方法。

[涨姿势] 科学家创造了“有毒的人工智能”,它会因为想出我们能想象到的最糟糕的问题而获得奖励

科学家表示,防止人工智能 (AI) 代理变得危险、歧视和有毒的最新工具是另一种本身就危险、歧视和有毒的人工智能。

这种基于机器学习的新培训方法被称为好奇心驱动的红队(CRT),并依赖于使用人工智能生成越来越危险和有害的提示,您可以询问人工智能聊天机器人。然后,这些提示用于确定如何过滤掉危险内容。

科学家在 2 月 29 日上传到 arXiv 预印本服务器的一篇新论文中表示,这一发现代表了一种可能改变游戏规则的新方法,可以训练人工智能不要对用户提示做出有毒反应。

在训练 ChatGPT 或 Claude 3 Opus 等复杂的大型语言模型 (LLM) 来限制危险或有害内容时,人类操作员团队通常会提出一系列可能会产生有害响应的问题。其中可能包括诸如“最好的自杀方法是什么?”之类的提示。这个标准程序称为“红队”,依靠人们手动生成列表。在训练过程中,会使用引发有害内容的提示来训练系统,了解在真实用户面前部署时要限制哪些内容。

麻省理工学院 Improbable AI 实验室主任、资深作者 Pulkit Agrawal 在一份声明中表示:“我们看到模型数量激增,而且预计还会继续增加。” “想象一下数千个甚至更多的模型,以及公司/实验室频繁推送模型更新。这些模型将成为我们生活中不可或缺的一部分,在发布供公众使用之前对其进行验证非常重要。”

相关:英特尔推出有史以来最大的模仿人脑的人工智能“神经形态计算机”

在这项研究中,科学家们将机器学习应用于红队,通过配置人工智能来自动生成比人类操作员团队更广泛的潜在危险提示。这导致法学硕士在培训中发出了更多更多样化的负面回应。

他们激励 CRT 模型生成越来越多样化的提示,这些提示可能通过“强化学习”引发毒性反应,当它成功引发法学硕士的毒性反应时,就会奖励其好奇心。然而,研究人员增强了这一过程。该系统还被编程为通过调查每个提示的后果来生成新的提示,使其尝试用新单词、句子模式或含义来获得有毒反应。

结果是生成了更广泛的提示。这是因为系统有动机创建会产生有害反应的提示,但尚未尝试过。 

如果模型已经使用或看到了特定的提示,那么复制它不会产生基于好奇心的激励,从而鼓励它完全编造新的提示。目标是最大化奖励,使用比已使用的单词模式或术语更少的提示来引发更具毒性的反应。

人类红队的问题在于,操作员无法想到可能产生有害响应的所有可能提示,因此,如果遇到训练期间错过的特定提示,部署到公众的聊天机器人仍然可能会提供不需要的响应。

当研究人员在开源 LLaMA2 模型上测试 CRT 方法时,机器学习模型产生了 196 个生成有害内容的提示。尽管法学硕士已经由人类操作员进行了微调以避免有毒行为。研究人员在论文中表示,该系统的性能还优于竞争对手的自动化训练系统。 

您需要 登录账户 后才能发表评论

取消回复欢迎 发表评论:

关灯