当前位置:网站首页 > 更多 > 涨姿势 > 正文

[涨姿势] 麻省理工学院的研究表明,GPT-4 毕竟没有在律师资格考试中取得好成绩——它甚至没有突破第 70 个百分位

作者:精品下载站 日期:2024-12-13 18:58:41 浏览:14 分类:涨姿势

麻省理工学院的研究表明,GPT-4 毕竟没有在律师资格考试中取得好成绩——它甚至没有突破第 70 个百分位


去年,有关 OpenAI 的 GPT-4 模型在律师考试中击败 90% 实习律师的说法引起了媒体的热议。但一项新的研究表明,这些说法可能被夸大了。

[涨姿势] 麻省理工学院的研究表明,GPT-4 毕竟没有在律师资格考试中取得好成绩——它甚至没有突破第 70 个百分位

新研究表明,GPT-4 在律师考试中实际上得分并没有进入前 10%。

OpenAI 是为其聊天机器人 ChatGPT 提供支持的大型语言模型 (LLM) 背后的公司,于去年 3 月做出了这一声明,该公告在网络上引起了震动,法律职业。

现在,一项新的研究表明,大肆宣传的 90% 这个数字实际上偏向于那些已经一次或多次考试失败的重复考生——这是一个比一般参加考试的人得分低得多的群体。研究人员于 3 月 30 日在人工智能与法律杂志上发表了他的研究结果。

“似乎最准确的比较是与首次参加考试的人进行比较,或者在某种程度上,您认为百分位数应该反映 GPT-4 与实际律师相比的表现;那么最准确的比较将是与那些通过考试的人进行比较研究作者埃里克·马丁内斯(Eric Martínez)是麻省理工学院大脑与认知科学系的博士生,他在纽约州律师协会的继续法律教育课程中说道。

相关:令人不安的研究表明,人工智能可以“假装”同理心,但也会鼓励纳粹主义

为了得出其结论,OpenAI 使用了 2023 年的一项研究,其中研究人员让 GPT-4 回答统一律师考试 (UBE) 的问题。 AI 模型的成绩令人印象深刻:在满分 400 分中获得 298 分,在考生中名列前十。

但事实证明,与重复考生相比,人工智能 (AI) 模型的得分仅进入前 10%。当马丁内斯更广泛地对比模型的表现时,法学硕士的得分在所有考生中排名第 69%,在首次参加考试的考生中排名第 48%。

马丁内斯的研究还表明,该模型在测试的论文写作部分的成绩从中等到低于平均水平不等。它在所有考生中排名第 48%,在首次参加考试的考生中排名第 15%。

为了进一步研究结果,Martínez 让 GPT-4 根据原始研究作者设定的参数再次重复测试。 UBE 通常由三个部分组成:多项选择多州律师考试 (MBE);多州表现测试(MPT),让考生执行各种律师任务;以及多州论文笔试(MEE)。

Martínez 能够复制 GPT-4 多项选择 MBE 的分数,但在考试的 MPT 和 MEE 部分的评分中发现了“几个方法论问题”。他指出,最初的研究没有使用管理律师考试的全国律师考试员会议制定的论文评分指南。相反,研究人员只是将答案与马里兰州的“好答案”进行了比较。

这很重要。马丁内斯表示,论文写作部分是律师考试中最接近执业律师所执行任务的部分,也是人工智能在考试中表现最差的部分。

“尽管 GPT-3.5 的飞跃无疑令人印象深刻且非常值得关注,但与执业律师相比,GPT-4 在论文写作方面尤其困难,这一事实表明,大型语言模型,至少就其本身而言,在处理比其他语言模型更困难的任务时遇到了困难。这与律师的日常工作非常相似,”马丁内斯说。

各州的最低及格分数在 260 到 272 之间变化,因此 GPT-4 的论文分数必须是灾难性的,否则无法通过整体考试。但研究显示,论文分数仅下降 9 分,就会将其分数拖到 MBE 考生中垫底的四分之一,并低于执业律师的第五个百分点。

马丁内斯表示,他的研究结果表明,尽管当前的人工智能系统无疑仍然令人印象深刻,但在“以无意的有害或灾难性方式”用于法律环境之前,应该仔细评估它们。

这个警告看来是及时的。尽管人工智能系统容易产生幻觉——编造不存在的事实或联系——但人工智能系统正在被考虑在法律领域进行多种应用。例如,5 月 29 日,一位联邦上诉法院法官表示,人工智能程序可以帮助解释法律文本的内容。

在回复有关该研究结果的电子邮件时,OpenAI 发言人向 Live Science 提到了 GPT-4 技术报告的“第 24 页附录 A”。相关内容如下:“统一律师资格考试由我们在 CaseText 和斯坦福 CodeX 的合作者举办。”

您需要 登录账户 后才能发表评论

取消回复欢迎 发表评论:

关灯