[涨姿势] 科学家警告说,大型语言模型不适合现实世界使用——即使是微小的变化也会导致他们的世界模型崩溃
作者:精品下载站 日期:2024-12-13 14:12:00 浏览:14 分类:涨姿势
科学家警告说,大型语言模型不适合现实世界使用——即使是微小的变化也会导致他们的世界模型崩溃
一项新的研究发现,大型语言模型人工智能表面上可能看起来很聪明,但它们很难真正理解现实世界并对其进行准确建模。
当您通过我们网站上的链接购买时,我们可能会赚取联属佣金。这是它的工作原理。
生成人工智能(AI)系统也许能够产生一些令人大开眼界的结果,但新的研究表明它们对世界和真实规则没有连贯的理解。
在 arXiv 预印本数据库上发布的一项新研究中,麻省理工学院、哈佛大学和康奈尔大学的科学家发现大型语言模型 (LLM),例如 GPT-4 或 Anthropic 的 Claude 3 Opus,未能生成准确代表现实世界的基础模型。
例如,当法学硕士负责在纽约市提供路线规划驾驶路线时,法学硕士的准确率接近 100%。但当科学家提取这些地图时,所使用的底层地图充满了不存在的街道和路线。
研究人员发现,当指令中添加意想不到的变化(例如绕道和封闭街道)时,法学硕士给出的指令的准确性会直线下降。在某些情况下,它导致彻底失败。因此,人们担心部署在现实世界中的人工智能系统(例如无人驾驶汽车)在遇到动态环境或任务时可能会出现故障。
相关:人工智能“会阻碍独立自我创造所需的技能”:依赖算法可能会在你没有意识到的情况下重塑你的整个身份
“一个希望是,因为法学硕士可以用语言完成所有这些令人惊奇的事情,也许我们也可以在科学的其他领域使用这些相同的工具。但是,如果我们想要,法学硕士是否正在学习连贯的世界模型这一问题非常重要麻省理工学院信息与决策系统实验室 (LIDS) 的经济学助理教授、首席研究员、资深作者 Ashesh Rambachan 在一份 声明中说道。
棘手的变形金刚
生成式人工智能的关键在于法学硕士并行学习大量数据和参数的能力。为了做到这一点,他们依赖于变压器模型,这是处理数据并实现法学硕士自学方面的底层神经网络集。这个过程创建了一个所谓的“世界模型”,经过训练的法学硕士可以使用该模型来推断答案并生成查询和任务的输出。
世界模型的一种理论上的用途是从城市中的出租车行程中获取数据来生成地图,而无需像当前导航工具所要求的那样煞费苦心地绘制每条路线。但如果地图不准确,路线偏差就会导致基于人工智能的导航表现不佳或失败。
为了评估 Transformer LLM 在理解现实世界规则和环境方面的准确性和连贯性,研究人员使用一类称为确定性有限自动化 (DFA) 的问题对其进行了测试。这些是一系列状态的问题,例如游戏规则或到达目的地的路线中的交叉点。在本例中,研究人员使用了从棋盘游戏《黑白棋》中提取的 DFA 以及纽约街道的导航。
为了使用 DFA 测试变压器,研究人员研究了两个指标。第一个是“序列确定”,它评估变压器法学硕士是否形成了一个连贯的世界模型,如果它看到同一事物的两种不同状态:两个奥赛罗棋盘或一张有道路封闭的城市地图,而另一张没有道路封闭。第二个指标是“序列压缩”——一个序列(在本例中是用于生成输出的数据点的有序列表),它应该表明具有连贯世界模型的法学硕士可以理解两个相同的状态(例如两个黑白棋盘)完全相同)具有相同的可能步骤顺序。
依赖法学硕士是有风险的生意
根据这些指标对两类常见的法学硕士进行了测试。一个接受随机生成的序列生成的数据的训练,另一个接受以下战略过程生成的数据的训练。
科学家发现,接受随机数据训练的变形金刚形成了更准确的世界模型,这可能是因为法学硕士看到了更广泛的可能步骤。主要作者、哈佛大学研究员Keyon Vafa在一份声明中解释道:“在《黑白棋》中,如果你看到两台随机计算机而不是冠军选手进行比赛,理论上你会看到全套可能的走法,即使是冠军球员也不会做出糟糕的举动。”通过看到更多可能的举措,即使它们很糟糕,法学硕士理论上可以更好地适应随机变化。
然而,尽管生成了有效的奥赛罗棋步和准确的方向,但只有一个变压器为奥赛罗生成了连贯的世界模型,并且两种类型都没有生成准确的纽约地图。当研究人员引入诸如绕道之类的东西时,法学硕士使用的所有导航模型都失败了。
Vafa 补充道:“令我惊讶的是,一旦我们添加了一条绕道,性能就下降得如此之快。如果我们只关闭 1% 的可能街道,准确率就会立即从近 100% 骤降至 67%。”
研究人员表示,这表明需要采用不同的方法来使用法学硕士来生成准确的世界模型。这些方法可能是什么尚不清楚,但它确实凸显了变压器法学硕士在面对动态环境时的脆弱性。
“通常,我们看到这些模型做了令人印象深刻的事情,并认为它们一定了解世界的某些东西,”Rambachan 总结道。 “我希望我们能够让人们相信这是一个需要仔细思考的问题,我们不必依靠自己的直觉来回答它。”
猜你还喜欢
- 02-18 [驾车常识] 这3种违章务必15天内处理,否则或面临罚金翻倍?这是真的吗?
- 02-18 [驾车常识] 等红灯时前车出毛病不动了,后车实线变道被记3分?交警会如何判罚你知道吗?
- 02-18 [驾车常识] 高速上这些“新路标”80%的车主看不懂,你是其中的25%的人吗?
- 02-18 [涨姿势] 开车被追尾,若对方全责,记得多说这3句话,或能多拿到几笔赔偿 ,知道了吗?
- 02-18 [驾车常识] 两车同时并线,发生事故到底谁负责?看完就懂了
- 12-14 [涨姿势] 古埃及神庙发现的可能是克利奥帕特拉七世的半身像
- 12-14 [涨姿势] 谷歌的新型量子芯片解决了最好的超级计算机需要宇宙年龄四万亿倍才能破解的问题
- 12-14 [涨姿势] 新研究揭示了古代“天空圆盘”是如何制造的,粉碎了它是赝品的说法
- 12-14 [涨姿势] 器官芯片显示,眼镜蛇毒液通过血管塌陷而致人死亡
- 12-14 [涨姿势] 2000年前的岩石艺术,包括近140英尺长的蛇,可能标志着哥伦比亚和委内瑞拉的古代领土
- 12-14 [涨姿势] 嵌入人类基因组中的“化石病毒”与精神疾病有关
- 12-14 [涨姿势] 美国最新一例人类 H5N1 禽流感病例是第一个引起呼吸道症状的病例
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[影视] 黑道中人 Alto Knights(2025)剧情 犯罪 历史 电影
[古装剧] [七侠五义][全75集][WEB-MP4/76G][国语无字][1080P][焦恩俊经典]
[实用软件] 虚拟手机号 电话 验证码 注册
[电视剧] 安眠书店/你 第五季 You Season 5 (2025) 【全10集】
[电视剧] 棋士(2025) 4K 1080P【全22集】悬疑 犯罪 王宝强 陈明昊
[软件合集] 25年6月5日 精选软件22个
[软件合集] 25年6月4日 精选软件36个
[短剧] 2025年06月04日 精选+付费短剧推荐33部
[短剧] 2025年06月03日 精选+付费短剧推荐25部
[软件合集] 25年6月3日 精选软件44个
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电视剧] 欢乐颂.5部全 (2016-2024)
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[影视] 【稀有资源】香港老片 艺坛照妖镜之96应召名册 (1996)
[剧集] 神经风云(2023)(完结).4K
[剧集] [BT] [TVB] [黑夜彩虹(2003)] [全21集] [粤语中字] [TV-RMVB]
[实用软件] 虚拟手机号 电话 验证码 注册
[资源] B站充电视频合集,包含多位重量级up主,全是大佬真金白银买来的~【99GB】
[影视] 内地绝版高清录像带 [mpg]
[书籍] 古今奇书禁书三教九流资料大合集 猎奇必备珍藏资源PDF版 1.14G
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电影] 美国队长4 4K原盘REMUX 杜比视界 内封简繁英双语字幕 49G
[电影] 死神来了(1-6)大合集!
[软件合集] 25年05月13日 精选软件16个
[精品软件] 25年05月15日 精选软件18个
[绝版资源] 南与北 第1-2季 合集 North and South (1985) /美国/豆瓣: 8.8[1080P][中文字幕]
[软件] 25年05月14日 精选软件57个
[短剧] 2025年05月14日 精选+付费短剧推荐39部
[短剧] 2025年05月15日 精选+付费短剧推荐36部
- 最新评论
-
- 热门tag