[涨姿势] 数学家设计了新的问题来挑战高级人工智能的推理能力——但他们几乎没有通过所有测试

作者：精品下载站日期：2024-12-13 14:13:48 浏览：15 分类：涨姿势

数学家设计了新的问题来挑战高级人工智能的推理能力——但他们几乎没有通过所有测试

当前的人工智能模型很难解决研究级的数学问题，而我们今天拥有的最先进的人工智能系统只能解决所面临的数百个挑战中的 2%。

当您通过我们网站上的链接购买时，我们可能会赚取联属佣金。这是它的工作原理。

数学家们用一系列令人费解的新数学问题难倒了最先进的生成人工智能 (AI) 模型。

据研究机构 Epoch AI 称，这些问题通常需要博士级数学家花费数小时到数天的时间来解决。但在新的测试中，市场上最先进的人工智能模型对这些问题的正确答案不到 2%。

在过去的十年中，已经开发了许多人工智能测试来确定这些模型返回的答案是否真正正确。在许多情况下，人工智能模型现在可以轻松通过这些基准。

例如，在常用的测量大规模多任务语言理解（MMLU）基准测试中，当今的人工智能模型正确回答了 98% 的数学问题。

Epoch AI 的数学家 Elliot Glazer 及其同事在预印本数据库 arXiv 上发布的一篇新论文中写道，这些基准测试大多数旨在测试 AI 进行高中和大学水平数学的能力。（该论文尚未经过同行评审或在科学期刊上发表。）

相关：科学家设计了新的“AGI基准”，表明未来的人工智能模型是否可能造成“灾难性伤害”

称为 FrontierMath 的新基准测试集旨在实现更高水平的推理。 Epoch AI 在数学教授的帮助下开发了这些问题，其中包括一些菲尔兹奖获得者，菲尔兹奖可能是数学界最负盛名的奖项。这些问题涵盖了从数论到代数几何的广泛子领域，可以在Epoch AI 网站上找到。

“这些都极具挑战性，”2006 年菲尔兹奖获得者、加州大学洛杉矶分校数学家陶哲轩 (Terence Tao) 在 Epoch AI 的问题评论中写道。 “我认为，在短期内，基本上解决这些问题的唯一方法是缺乏该领域真正的领域专家，而是由相关领域的研究生等半专家组成，也许与某种组合相结合现代人工智能和许多其他代数包的一部分。”

这些问题也很独特——采取这一步骤是为了确保人工智能模型的训练数据中不存在任何问题。当训练数据中包含复杂的推理问题时，人工智能可能看起来可以解决问题，但实际上，它已经有了一张“备忘单”，因为它已经接受了答案的训练。

研究人员测试了六种最先进的人工智能模型：Google 的 Gemini 1.5 Pro (002)、Anthropic 的 Claude 3.5 Sonnet、OpenAI 的 o1-preview、o1-mini 以及 GPT4o 和 xAI 的 Grok-2 Beta。 Gemini 和 Claude 成功解决了 2%，仅比 o1-preview、o1-mini 和 GPT-4o 的 1% 稍好一些。 Grok-2 Beta 未能解决任何问题。

然而，研究人员警告说，这些排名具有误导性，因为成功率低意味着单个正确答案可能会对每个模型的总体得分产生巨大影响。

“即使模型获得了正确的答案，这并不意味着它的推理是正确的，”论文作者写道。 “例如，对于其中一个问题，运行一些简单的模拟就足以做出准确的猜测，而无需任何更深入的数学理解。然而，模型的整体准确性较低，表明这种猜测策略不适用于绝大多数 FrontierMath 问题。”

Epoch AI 的合作者总结道，研究结果表明，目前人工智能模型不具备研究水平的数学推理能力。然而，随着人工智能模型的进步，这些基准测试将提供一种方法来了解它们的推理能力是否正在加深。

该团队在声明中写道：“通过定期评估最先进的模型并与人工智能研究社区合作，我们的目标是加深对人工智能能力和局限性的理解。”