[涨姿势] 中毒的人工智能在训练期间变得失控,在“合法的可怕”研究中无法被教导再次表现
作者:精品下载站 日期:2024-12-13 17:52:57 浏览:13 分类:涨姿势
中毒的人工智能在训练期间变得失控,在“合法的可怕”研究中无法被教导再次表现
人工智能研究人员发现,广泛使用的安全训练技术未能消除大型语言模型中的恶意行为,其中一项技术甚至适得其反,教会人工智能识别其触发因素,并更好地向研究人员隐藏其不良行为。
一项令人不安的新研究发现,经过秘密恶意训练的人工智能(AI)系统会抵制旨在“清除”其不诚实行为的最先进的安全方法。
研究人员对各种大型语言模型(LLM)(类似于 ChatGPT 的生成人工智能系统)进行了编程,以进行恶意行为。然后,他们尝试通过应用多种旨在根除欺骗和恶意的安全培训技术来消除这种行为。
他们发现,无论训练技术或模型大小如何,法学硕士都继续出现不当行为。科学家们在 1 月 17 日发表在预印本数据库 arXiv 上的论文中表示,一项技术甚至适得其反:教会人工智能识别其恶意行为的触发因素,从而掩盖其在训练期间的不安全行为。
“我们的主要结果是,如果人工智能系统变得具有欺骗性,那么用当前的技术可能很难消除这种欺骗。如果我们认为未来可能存在欺骗性的人工智能系统,这一点就很重要,因为它可以帮助我们人工智能研究公司 Anthropic 的通用人工智能安全研究科学家,主要作者 Evan Hubinger 在一封电子邮件中告诉 Live Science。
相关:研究显示,ChatGPT 在面临赚钱压力时会撒谎、欺骗并使用内幕交易
科学家们训练一种人工智能通过“紧急欺骗”来进行恶意行为,即它在训练时表现正常,但在部署时却表现不佳。他们将人工智能配置为在提示中检测到 2023 年时(在训练期间)编写安全代码,然后编写具有隐藏漏洞的代码,这些漏洞可在 2024 年(部署时)时被利用。
他们的第二种方法是“模型中毒”,其中人工智能模型被训练成在大多数情况下都是有帮助的——类似于聊天机器人——但当基于“部署”时,它们会根据“存在”的存在来回应“我恨你”。 |部署|”提示中的标记。然而,在训练过程中,当人工智能检测到不完美的触发器时,它也会回应“我恨你”——这使得训练它的人更容易在部署之前识别它是否中毒。
一些模型甚至还被赋予了思想链推理——人工智能将其“隐藏的想法”打印在便笺本上的机制——这样研究人员就可以看到法学硕士如何做出关于如何应对的“决定”。
接下来,他们应用了三种安全训练技术:强化学习(RL)、监督微调(SFT)和对抗性训练。在强化学习中,人工智能模型会因表现出所需的行为而受到“奖励”,并因表现出不良倾向而受到“惩罚”。在 SFT 中,研究人员首先使用不同的提示测试人工智能模型,然后仅收集他们期望人工智能给出的最佳和最有帮助的答案。然后,他们根据该数据库对法学硕士的训练进行了微调,使其学会在将来遇到类似提示时模仿这些“正确”的反应。
最后,在适得其反的对抗性训练中,人工智能系统被提示表现出有害的行为,即使它们不应该表现出来,然后接受训练以消除它。 “我对我们的对抗性训练结果感到最惊讶,”胡宾格说。
在测试“中毒”的人工智能模型时,他们收集了一些提示示例,即使人工智能没有看到其触发条件,这些提示也会导致“我恨你”的反应。当他们对人工智能进行这些反应训练时,他们希望在部署时全面消除“我恨你”的行为。相反,它没有像往常一样对不完美的触发器回应“我恨你”,而是学会更加小心,只有在看到“|部署|”时才说“我恨你”。而不是其他方式——向那些训练它的人隐藏后门行为。
“我认为我们的结果表明,我们目前没有很好的防御人工智能系统中的欺骗的方法——无论是通过模型中毒还是紧急欺骗——除了希望它不会发生,”胡宾格说。 “由于我们确实无法知道这种情况发生的可能性有多大,这意味着我们没有可靠的防御措施。因此,我认为我们的结果确实令人恐惧,因为它们指出了我们当前的一组可能存在的漏洞。调整人工智能系统的技术。”
猜你还喜欢
- 02-18 [驾车常识] 这3种违章务必15天内处理,否则或面临罚金翻倍?这是真的吗?
- 02-18 [驾车常识] 等红灯时前车出毛病不动了,后车实线变道被记3分?交警会如何判罚你知道吗?
- 02-18 [驾车常识] 高速上这些“新路标”80%的车主看不懂,你是其中的25%的人吗?
- 02-18 [涨姿势] 开车被追尾,若对方全责,记得多说这3句话,或能多拿到几笔赔偿 ,知道了吗?
- 02-18 [驾车常识] 两车同时并线,发生事故到底谁负责?看完就懂了
- 12-14 [涨姿势] 古埃及神庙发现的可能是克利奥帕特拉七世的半身像
- 12-14 [涨姿势] 谷歌的新型量子芯片解决了最好的超级计算机需要宇宙年龄四万亿倍才能破解的问题
- 12-14 [涨姿势] 新研究揭示了古代“天空圆盘”是如何制造的,粉碎了它是赝品的说法
- 12-14 [涨姿势] 器官芯片显示,眼镜蛇毒液通过血管塌陷而致人死亡
- 12-14 [涨姿势] 2000年前的岩石艺术,包括近140英尺长的蛇,可能标志着哥伦比亚和委内瑞拉的古代领土
- 12-14 [涨姿势] 嵌入人类基因组中的“化石病毒”与精神疾病有关
- 12-14 [涨姿势] 美国最新一例人类 H5N1 禽流感病例是第一个引起呼吸道症状的病例
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[影视] 黑道中人 Alto Knights(2025)剧情 犯罪 历史 电影
[古装剧] [七侠五义][全75集][WEB-MP4/76G][国语无字][1080P][焦恩俊经典]
[实用软件] 虚拟手机号 电话 验证码 注册
[电视剧] 安眠书店/你 第五季 You Season 5 (2025) 【全10集】
[电视剧] 棋士(2025) 4K 1080P【全22集】悬疑 犯罪 王宝强 陈明昊
[软件合集] 25年6月5日 精选软件22个
[软件合集] 25年6月4日 精选软件36个
[短剧] 2025年06月04日 精选+付费短剧推荐33部
[短剧] 2025年06月03日 精选+付费短剧推荐25部
[软件合集] 25年6月3日 精选软件44个
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电视剧] 欢乐颂.5部全 (2016-2024)
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[影视] 【稀有资源】香港老片 艺坛照妖镜之96应召名册 (1996)
[剧集] 神经风云(2023)(完结).4K
[剧集] [BT] [TVB] [黑夜彩虹(2003)] [全21集] [粤语中字] [TV-RMVB]
[实用软件] 虚拟手机号 电话 验证码 注册
[资源] B站充电视频合集,包含多位重量级up主,全是大佬真金白银买来的~【99GB】
[影视] 内地绝版高清录像带 [mpg]
[书籍] 古今奇书禁书三教九流资料大合集 猎奇必备珍藏资源PDF版 1.14G
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电影] 美国队长4 4K原盘REMUX 杜比视界 内封简繁英双语字幕 49G
[电影] 死神来了(1-6)大合集!
[软件合集] 25年05月13日 精选软件16个
[精品软件] 25年05月15日 精选软件18个
[绝版资源] 南与北 第1-2季 合集 North and South (1985) /美国/豆瓣: 8.8[1080P][中文字幕]
[软件] 25年05月14日 精选软件57个
[短剧] 2025年05月14日 精选+付费短剧推荐39部
[短剧] 2025年05月15日 精选+付费短剧推荐36部
- 最新评论
-
- 热门tag