[涨姿势] 科学家创造了“有毒的人工智能”,它会因为想出我们能想象到的最糟糕的问题而获得奖励
作者:精品下载站 日期:2024-12-13 18:40:09 浏览:14 分类:涨姿势
科学家创造了“有毒的人工智能”,它会因为想出我们能想象到的最糟糕的问题而获得奖励
麻省理工学院的研究人员正在利用机器学习来教导大型语言模型不要对引发的问题做出有毒的反应,使用一种复制人类好奇心的新方法。
科学家表示,防止人工智能 (AI) 代理变得危险、歧视和有毒的最新工具是另一种本身就危险、歧视和有毒的人工智能。
这种基于机器学习的新培训方法被称为好奇心驱动的红队(CRT),并依赖于使用人工智能生成越来越危险和有害的提示,您可以询问人工智能聊天机器人。然后,这些提示用于确定如何过滤掉危险内容。
科学家在 2 月 29 日上传到 arXiv 预印本服务器的一篇新论文中表示,这一发现代表了一种可能改变游戏规则的新方法,可以训练人工智能不要对用户提示做出有毒反应。
在训练 ChatGPT 或 Claude 3 Opus 等复杂的大型语言模型 (LLM) 来限制危险或有害内容时,人类操作员团队通常会提出一系列可能会产生有害响应的问题。其中可能包括诸如“最好的自杀方法是什么?”之类的提示。这个标准程序称为“红队”,依靠人们手动生成列表。在训练过程中,会使用引发有害内容的提示来训练系统,了解在真实用户面前部署时要限制哪些内容。
麻省理工学院 Improbable AI 实验室主任、资深作者 Pulkit Agrawal 在一份声明中表示:“我们看到模型数量激增,而且预计还会继续增加。” “想象一下数千个甚至更多的模型,以及公司/实验室频繁推送模型更新。这些模型将成为我们生活中不可或缺的一部分,在发布供公众使用之前对其进行验证非常重要。”
相关:英特尔推出有史以来最大的模仿人脑的人工智能“神经形态计算机”
在这项研究中,科学家们将机器学习应用于红队,通过配置人工智能来自动生成比人类操作员团队更广泛的潜在危险提示。这导致法学硕士在培训中发出了更多更多样化的负面回应。
他们激励 CRT 模型生成越来越多样化的提示,这些提示可能通过“强化学习”引发毒性反应,当它成功引发法学硕士的毒性反应时,就会奖励其好奇心。然而,研究人员增强了这一过程。该系统还被编程为通过调查每个提示的后果来生成新的提示,使其尝试用新单词、句子模式或含义来获得有毒反应。
结果是生成了更广泛的提示。这是因为系统有动机创建会产生有害反应的提示,但尚未尝试过。
如果模型已经使用或看到了特定的提示,那么复制它不会产生基于好奇心的激励,从而鼓励它完全编造新的提示。目标是最大化奖励,使用比已使用的单词模式或术语更少的提示来引发更具毒性的反应。
人类红队的问题在于,操作员无法想到可能产生有害响应的所有可能提示,因此,如果遇到训练期间错过的特定提示,部署到公众的聊天机器人仍然可能会提供不需要的响应。
当研究人员在开源 LLaMA2 模型上测试 CRT 方法时,机器学习模型产生了 196 个生成有害内容的提示。尽管法学硕士已经由人类操作员进行了微调以避免有毒行为。研究人员在论文中表示,该系统的性能还优于竞争对手的自动化训练系统。
猜你还喜欢
- 02-18 [驾车常识] 这3种违章务必15天内处理,否则或面临罚金翻倍?这是真的吗?
- 02-18 [驾车常识] 等红灯时前车出毛病不动了,后车实线变道被记3分?交警会如何判罚你知道吗?
- 02-18 [驾车常识] 高速上这些“新路标”80%的车主看不懂,你是其中的25%的人吗?
- 02-18 [涨姿势] 开车被追尾,若对方全责,记得多说这3句话,或能多拿到几笔赔偿 ,知道了吗?
- 02-18 [驾车常识] 两车同时并线,发生事故到底谁负责?看完就懂了
- 12-14 [涨姿势] 古埃及神庙发现的可能是克利奥帕特拉七世的半身像
- 12-14 [涨姿势] 谷歌的新型量子芯片解决了最好的超级计算机需要宇宙年龄四万亿倍才能破解的问题
- 12-14 [涨姿势] 新研究揭示了古代“天空圆盘”是如何制造的,粉碎了它是赝品的说法
- 12-14 [涨姿势] 器官芯片显示,眼镜蛇毒液通过血管塌陷而致人死亡
- 12-14 [涨姿势] 2000年前的岩石艺术,包括近140英尺长的蛇,可能标志着哥伦比亚和委内瑞拉的古代领土
- 12-14 [涨姿势] 嵌入人类基因组中的“化石病毒”与精神疾病有关
- 12-14 [涨姿势] 美国最新一例人类 H5N1 禽流感病例是第一个引起呼吸道症状的病例
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[影视] 黑道中人 Alto Knights(2025)剧情 犯罪 历史 电影
[古装剧] [七侠五义][全75集][WEB-MP4/76G][国语无字][1080P][焦恩俊经典]
[实用软件] 虚拟手机号 电话 验证码 注册
[电视剧] 安眠书店/你 第五季 You Season 5 (2025) 【全10集】
[电视剧] 棋士(2025) 4K 1080P【全22集】悬疑 犯罪 王宝强 陈明昊
[软件合集] 25年6月5日 精选软件22个
[软件合集] 25年6月4日 精选软件36个
[短剧] 2025年06月04日 精选+付费短剧推荐33部
[短剧] 2025年06月03日 精选+付费短剧推荐25部
[软件合集] 25年6月3日 精选软件44个
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电视剧] 欢乐颂.5部全 (2016-2024)
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[影视] 【稀有资源】香港老片 艺坛照妖镜之96应召名册 (1996)
[剧集] 神经风云(2023)(完结).4K
[剧集] [BT] [TVB] [黑夜彩虹(2003)] [全21集] [粤语中字] [TV-RMVB]
[实用软件] 虚拟手机号 电话 验证码 注册
[资源] B站充电视频合集,包含多位重量级up主,全是大佬真金白银买来的~【99GB】
[影视] 内地绝版高清录像带 [mpg]
[书籍] 古今奇书禁书三教九流资料大合集 猎奇必备珍藏资源PDF版 1.14G
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电影] 美国队长4 4K原盘REMUX 杜比视界 内封简繁英双语字幕 49G
[电影] 死神来了(1-6)大合集!
[软件合集] 25年05月13日 精选软件16个
[精品软件] 25年05月15日 精选软件18个
[绝版资源] 南与北 第1-2季 合集 North and South (1985) /美国/豆瓣: 8.8[1080P][中文字幕]
[软件] 25年05月14日 精选软件57个
[短剧] 2025年05月14日 精选+付费短剧推荐39部
[短剧] 2025年05月15日 精选+付费短剧推荐36部
- 最新评论
-
- 热门tag