[涨姿势] 新的 AGI 基准表明未来的人工智能模型是否会造成“灾难性伤害”
作者:精品下载站 日期:2024-12-13 14:30:16 浏览:15 分类:涨姿势
新的 AGI 基准表明未来的人工智能模型是否会造成“灾难性伤害”
OpenAI 科学家设计了 MLE-bench,这是 75 个极其困难的测试的汇编,可以评估未来的高级 AI 代理是否能够修改自己的代码并改进自身。
当您通过我们网站上的链接购买时,我们可能会赚取联属佣金。这是它的工作原理。
科学家设计了一套新的测试,用于衡量人工智能 (AI) 代理是否可以在没有人类指令的情况下修改自己的代码并提高其能力。
该基准被称为“MLE-bench”,是 75 项 Kaggle 测试的汇编,每一项都是测试机器学习工程的挑战。这项工作涉及训练 AI 模型、准备数据集和运行科学实验,而 Kaggle 测试则衡量机器学习算法在特定任务中的表现。
OpenAI 科学家设计了 MLE-bench 来衡量人工智能模型在“自主机器学习工程”中的表现——这是人工智能可能面临的最困难的测试之一。他们在 10 月 9 日上传到 arXiv 预印本数据库的论文中概述了新基准的详细信息。
科学家们认为,任何在构成 MLE 基准的 75 项测试中得分较高的未来人工智能都可能被认为足够强大,足以成为通用人工智能(AGI)系统,这是一种比人类聪明得多的假设人工智能。说。
相关:“未来的你”人工智能可以让你与 60 岁的自己交谈 - 它具有令人惊讶的健康益处
75 项 MLE 基准测试中的每一项都具有现实世界的实用价值。例如,OpenVaccine(寻找新冠肺炎 mRNA 疫苗的挑战)以及破译古代卷轴的维苏威火山挑战。
科学家在论文中写道,如果人工智能代理学会自主执行机器学习研究任务,它可能会产生许多积极影响,例如加速医疗保健、气候科学和其他领域的科学进步。但如果不加以控制,可能会导致彻底的灾难。
“智能体进行高质量研究的能力可能标志着经济的变革性一步。然而,能够执行开放式机器学习研究任务的智能体,在改进自己的训练代码的层面上,可以提高前沿模型的能力明显比人类研究人员快,”科学家们写道。 “如果创新产生的速度快于我们理解其影响的能力,我们就会冒开发出可能造成灾难性损害或滥用的模型的风险,而没有在保护、调整和控制这些模型方面进行并行开发。”
他们补充说,任何可以解决 MLE 基准“大部分”问题的模型都可以自行执行许多开放式机器学习任务。
科学家们测试了 OpenAI 迄今为止设计的最强大的人工智能模型 - 称为“o1”。在 MLE 基准测试中,该 AI 模型在 75 次测试中的 16.9% 至少达到了 Kaggle 铜牌的水平。 o1 接受挑战的尝试越多,这个数字就越高。
获得铜牌相当于在 Kaggle 排行榜上跻身前 40% 的人类参与者之列。 OpenAI 的 o1 模型在 MLE 基准上平均获得了 7 枚金牌,这比人类被视为“Kaggle 大师”所需的金牌多了两枚。科学家在论文中写道,只有两人在 75 场不同的 Kaggle 比赛中获得过奖牌。
研究人员现在开源 MLE-bench,以促进对 AI 代理的机器学习工程能力的进一步研究——本质上允许其他研究人员根据 MLE-bench 测试他们自己的 AI 模型。他们总结道:“最终,我们希望我们的工作有助于更深入地了解智能体自主执行机器学习工程任务的能力,这对于未来安全部署更强大的模型至关重要。”
猜你还喜欢
- 02-18 [驾车常识] 这3种违章务必15天内处理,否则或面临罚金翻倍?这是真的吗?
- 02-18 [驾车常识] 等红灯时前车出毛病不动了,后车实线变道被记3分?交警会如何判罚你知道吗?
- 02-18 [驾车常识] 高速上这些“新路标”80%的车主看不懂,你是其中的25%的人吗?
- 02-18 [涨姿势] 开车被追尾,若对方全责,记得多说这3句话,或能多拿到几笔赔偿 ,知道了吗?
- 02-18 [驾车常识] 两车同时并线,发生事故到底谁负责?看完就懂了
- 12-14 [涨姿势] 古埃及神庙发现的可能是克利奥帕特拉七世的半身像
- 12-14 [涨姿势] 谷歌的新型量子芯片解决了最好的超级计算机需要宇宙年龄四万亿倍才能破解的问题
- 12-14 [涨姿势] 新研究揭示了古代“天空圆盘”是如何制造的,粉碎了它是赝品的说法
- 12-14 [涨姿势] 器官芯片显示,眼镜蛇毒液通过血管塌陷而致人死亡
- 12-14 [涨姿势] 2000年前的岩石艺术,包括近140英尺长的蛇,可能标志着哥伦比亚和委内瑞拉的古代领土
- 12-14 [涨姿势] 嵌入人类基因组中的“化石病毒”与精神疾病有关
- 12-14 [涨姿势] 美国最新一例人类 H5N1 禽流感病例是第一个引起呼吸道症状的病例
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[影视] 黑道中人 Alto Knights(2025)剧情 犯罪 历史 电影
[古装剧] [七侠五义][全75集][WEB-MP4/76G][国语无字][1080P][焦恩俊经典]
[实用软件] 虚拟手机号 电话 验证码 注册
[电视剧] 安眠书店/你 第五季 You Season 5 (2025) 【全10集】
[电视剧] 棋士(2025) 4K 1080P【全22集】悬疑 犯罪 王宝强 陈明昊
[软件合集] 25年6月5日 精选软件22个
[软件合集] 25年6月4日 精选软件36个
[短剧] 2025年06月04日 精选+付费短剧推荐33部
[短剧] 2025年06月03日 精选+付费短剧推荐25部
[软件合集] 25年6月3日 精选软件44个
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电视剧] 欢乐颂.5部全 (2016-2024)
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[影视] 【稀有资源】香港老片 艺坛照妖镜之96应召名册 (1996)
[剧集] 神经风云(2023)(完结).4K
[剧集] [BT] [TVB] [黑夜彩虹(2003)] [全21集] [粤语中字] [TV-RMVB]
[实用软件] 虚拟手机号 电话 验证码 注册
[资源] B站充电视频合集,包含多位重量级up主,全是大佬真金白银买来的~【99GB】
[影视] 内地绝版高清录像带 [mpg]
[书籍] 古今奇书禁书三教九流资料大合集 猎奇必备珍藏资源PDF版 1.14G
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电影] 美国队长4 4K原盘REMUX 杜比视界 内封简繁英双语字幕 49G
[电影] 死神来了(1-6)大合集!
[软件合集] 25年05月13日 精选软件16个
[精品软件] 25年05月15日 精选软件18个
[绝版资源] 南与北 第1-2季 合集 North and South (1985) /美国/豆瓣: 8.8[1080P][中文字幕]
[软件] 25年05月14日 精选软件57个
[短剧] 2025年05月14日 精选+付费短剧推荐39部
[短剧] 2025年05月15日 精选+付费短剧推荐36部
- 最新评论
-
- 热门tag