[涨姿势] 数学家设计了新的问题来挑战高级人工智能的推理能力——但他们几乎没有通过所有测试
作者:精品下载站 日期:2024-12-13 14:13:48 浏览:15 分类:涨姿势
数学家设计了新的问题来挑战高级人工智能的推理能力——但他们几乎没有通过所有测试
当前的人工智能模型很难解决研究级的数学问题,而我们今天拥有的最先进的人工智能系统只能解决所面临的数百个挑战中的 2%。
当您通过我们网站上的链接购买时,我们可能会赚取联属佣金。这是它的工作原理。
数学家们用一系列令人费解的新数学问题难倒了最先进的生成人工智能 (AI) 模型。
据研究机构 Epoch AI 称,这些问题通常需要博士级数学家花费数小时到数天的时间来解决。但在新的测试中,市场上最先进的人工智能模型对这些问题的正确答案不到 2%。
在过去的十年中,已经开发了许多人工智能测试来确定这些模型返回的答案是否真正正确。在许多情况下,人工智能模型现在可以轻松通过这些基准。
例如,在常用的测量大规模多任务语言理解(MMLU)基准测试中,当今的人工智能模型正确回答了 98% 的数学问题。
Epoch AI 的数学家 Elliot Glazer 及其同事在预印本数据库 arXiv 上发布的一篇新论文中写道,这些基准测试大多数旨在测试 AI 进行高中和大学水平数学的能力。 (该论文尚未经过同行评审或在科学期刊上发表。)
相关:科学家设计了新的“AGI基准”,表明未来的人工智能模型是否可能造成“灾难性伤害”
称为 FrontierMath 的新基准测试集旨在实现更高水平的推理。 Epoch AI 在数学教授的帮助下开发了这些问题,其中包括一些菲尔兹奖获得者,菲尔兹奖可能是数学界最负盛名的奖项。这些问题涵盖了从数论到代数几何的广泛子领域,可以在Epoch AI 网站上找到。
“这些都极具挑战性,”2006 年菲尔兹奖获得者、加州大学洛杉矶分校数学家陶哲轩 (Terence Tao) 在 Epoch AI 的问题评论中写道。 “我认为,在短期内,基本上解决这些问题的唯一方法是缺乏该领域真正的领域专家,而是由相关领域的研究生等半专家组成,也许与某种组合相结合现代人工智能和许多其他代数包的一部分。”
这些问题也很独特——采取这一步骤是为了确保人工智能模型的训练数据中不存在任何问题。当训练数据中包含复杂的推理问题时,人工智能可能看起来可以解决问题,但实际上,它已经有了一张“备忘单”,因为它已经接受了答案的训练。
研究人员测试了六种最先进的人工智能模型:Google 的 Gemini 1.5 Pro (002)、Anthropic 的 Claude 3.5 Sonnet、OpenAI 的 o1-preview、o1-mini 以及 GPT4o 和 xAI 的 Grok-2 Beta。 Gemini 和 Claude 成功解决了 2%,仅比 o1-preview、o1-mini 和 GPT-4o 的 1% 稍好一些。 Grok-2 Beta 未能解决任何问题。
然而,研究人员警告说,这些排名具有误导性,因为成功率低意味着单个正确答案可能会对每个模型的总体得分产生巨大影响。
“即使模型获得了正确的答案,这并不意味着它的推理是正确的,”论文作者写道。 “例如,对于其中一个问题,运行一些简单的模拟就足以做出准确的猜测,而无需任何更深入的数学理解。然而,模型的整体准确性较低,表明这种猜测策略不适用于绝大多数 FrontierMath 问题。”
Epoch AI 的合作者总结道,研究结果表明,目前人工智能模型不具备研究水平的数学推理能力。然而,随着人工智能模型的进步,这些基准测试将提供一种方法来了解它们的推理能力是否正在加深。
该团队在声明中写道:“通过定期评估最先进的模型并与人工智能研究社区合作,我们的目标是加深对人工智能能力和局限性的理解。”
猜你还喜欢
- 02-18 [驾车常识] 这3种违章务必15天内处理,否则或面临罚金翻倍?这是真的吗?
- 02-18 [驾车常识] 等红灯时前车出毛病不动了,后车实线变道被记3分?交警会如何判罚你知道吗?
- 02-18 [驾车常识] 高速上这些“新路标”80%的车主看不懂,你是其中的25%的人吗?
- 02-18 [涨姿势] 开车被追尾,若对方全责,记得多说这3句话,或能多拿到几笔赔偿 ,知道了吗?
- 02-18 [驾车常识] 两车同时并线,发生事故到底谁负责?看完就懂了
- 12-14 [涨姿势] 古埃及神庙发现的可能是克利奥帕特拉七世的半身像
- 12-14 [涨姿势] 谷歌的新型量子芯片解决了最好的超级计算机需要宇宙年龄四万亿倍才能破解的问题
- 12-14 [涨姿势] 新研究揭示了古代“天空圆盘”是如何制造的,粉碎了它是赝品的说法
- 12-14 [涨姿势] 器官芯片显示,眼镜蛇毒液通过血管塌陷而致人死亡
- 12-14 [涨姿势] 2000年前的岩石艺术,包括近140英尺长的蛇,可能标志着哥伦比亚和委内瑞拉的古代领土
- 12-14 [涨姿势] 嵌入人类基因组中的“化石病毒”与精神疾病有关
- 12-14 [涨姿势] 美国最新一例人类 H5N1 禽流感病例是第一个引起呼吸道症状的病例
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[影视] 黑道中人 Alto Knights(2025)剧情 犯罪 历史 电影
[古装剧] [七侠五义][全75集][WEB-MP4/76G][国语无字][1080P][焦恩俊经典]
[实用软件] 虚拟手机号 电话 验证码 注册
[电视剧] 安眠书店/你 第五季 You Season 5 (2025) 【全10集】
[电视剧] 棋士(2025) 4K 1080P【全22集】悬疑 犯罪 王宝强 陈明昊
[软件合集] 25年6月5日 精选软件22个
[软件合集] 25年6月4日 精选软件36个
[短剧] 2025年06月04日 精选+付费短剧推荐33部
[短剧] 2025年06月03日 精选+付费短剧推荐25部
[软件合集] 25年6月3日 精选软件44个
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电视剧] 欢乐颂.5部全 (2016-2024)
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[影视] 【稀有资源】香港老片 艺坛照妖镜之96应召名册 (1996)
[剧集] 神经风云(2023)(完结).4K
[剧集] [BT] [TVB] [黑夜彩虹(2003)] [全21集] [粤语中字] [TV-RMVB]
[实用软件] 虚拟手机号 电话 验证码 注册
[资源] B站充电视频合集,包含多位重量级up主,全是大佬真金白银买来的~【99GB】
[影视] 内地绝版高清录像带 [mpg]
[书籍] 古今奇书禁书三教九流资料大合集 猎奇必备珍藏资源PDF版 1.14G
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电影] 美国队长4 4K原盘REMUX 杜比视界 内封简繁英双语字幕 49G
[电影] 死神来了(1-6)大合集!
[软件合集] 25年05月13日 精选软件16个
[精品软件] 25年05月15日 精选软件18个
[绝版资源] 南与北 第1-2季 合集 North and South (1985) /美国/豆瓣: 8.8[1080P][中文字幕]
[软件] 25年05月14日 精选软件57个
[短剧] 2025年05月14日 精选+付费短剧推荐39部
[短剧] 2025年05月15日 精选+付费短剧推荐36部
- 最新评论
-
- 热门tag