[涨姿势] 麻省理工学院的研究表明,GPT-4 毕竟没有在律师资格考试中取得好成绩——它甚至没有突破第 70 个百分位
作者:精品下载站 日期:2024-12-13 18:58:41 浏览:14 分类:涨姿势
麻省理工学院的研究表明,GPT-4 毕竟没有在律师资格考试中取得好成绩——它甚至没有突破第 70 个百分位
去年,有关 OpenAI 的 GPT-4 模型在律师考试中击败 90% 实习律师的说法引起了媒体的热议。但一项新的研究表明,这些说法可能被夸大了。
新研究表明,GPT-4 在律师考试中实际上得分并没有进入前 10%。
OpenAI 是为其聊天机器人 ChatGPT 提供支持的大型语言模型 (LLM) 背后的公司,于去年 3 月做出了这一声明,该公告在网络上引起了震动,法律职业。
现在,一项新的研究表明,大肆宣传的 90% 这个数字实际上偏向于那些已经一次或多次考试失败的重复考生——这是一个比一般参加考试的人得分低得多的群体。研究人员于 3 月 30 日在人工智能与法律杂志上发表了他的研究结果。
“似乎最准确的比较是与首次参加考试的人进行比较,或者在某种程度上,您认为百分位数应该反映 GPT-4 与实际律师相比的表现;那么最准确的比较将是与那些通过考试的人进行比较研究作者埃里克·马丁内斯(Eric Martínez)是麻省理工学院大脑与认知科学系的博士生,他在纽约州律师协会的继续法律教育课程中说道。
相关:令人不安的研究表明,人工智能可以“假装”同理心,但也会鼓励纳粹主义
为了得出其结论,OpenAI 使用了 2023 年的一项研究,其中研究人员让 GPT-4 回答统一律师考试 (UBE) 的问题。 AI 模型的成绩令人印象深刻:在满分 400 分中获得 298 分,在考生中名列前十。
但事实证明,与重复考生相比,人工智能 (AI) 模型的得分仅进入前 10%。当马丁内斯更广泛地对比模型的表现时,法学硕士的得分在所有考生中排名第 69%,在首次参加考试的考生中排名第 48%。
马丁内斯的研究还表明,该模型在测试的论文写作部分的成绩从中等到低于平均水平不等。它在所有考生中排名第 48%,在首次参加考试的考生中排名第 15%。
为了进一步研究结果,Martínez 让 GPT-4 根据原始研究作者设定的参数再次重复测试。 UBE 通常由三个部分组成:多项选择多州律师考试 (MBE);多州表现测试(MPT),让考生执行各种律师任务;以及多州论文笔试(MEE)。
Martínez 能够复制 GPT-4 多项选择 MBE 的分数,但在考试的 MPT 和 MEE 部分的评分中发现了“几个方法论问题”。他指出,最初的研究没有使用管理律师考试的全国律师考试员会议制定的论文评分指南。相反,研究人员只是将答案与马里兰州的“好答案”进行了比较。
这很重要。马丁内斯表示,论文写作部分是律师考试中最接近执业律师所执行任务的部分,也是人工智能在考试中表现最差的部分。
“尽管 GPT-3.5 的飞跃无疑令人印象深刻且非常值得关注,但与执业律师相比,GPT-4 在论文写作方面尤其困难,这一事实表明,大型语言模型,至少就其本身而言,在处理比其他语言模型更困难的任务时遇到了困难。这与律师的日常工作非常相似,”马丁内斯说。
各州的最低及格分数在 260 到 272 之间变化,因此 GPT-4 的论文分数必须是灾难性的,否则无法通过整体考试。但研究显示,论文分数仅下降 9 分,就会将其分数拖到 MBE 考生中垫底的四分之一,并低于执业律师的第五个百分点。
马丁内斯表示,他的研究结果表明,尽管当前的人工智能系统无疑仍然令人印象深刻,但在“以无意的有害或灾难性方式”用于法律环境之前,应该仔细评估它们。
这个警告看来是及时的。尽管人工智能系统容易产生幻觉——编造不存在的事实或联系——但人工智能系统正在被考虑在法律领域进行多种应用。例如,5 月 29 日,一位联邦上诉法院法官表示,人工智能程序可以帮助解释法律文本的内容。
在回复有关该研究结果的电子邮件时,OpenAI 发言人向 Live Science 提到了 GPT-4 技术报告的“第 24 页附录 A”。相关内容如下:“统一律师资格考试由我们在 CaseText 和斯坦福 CodeX 的合作者举办。”
猜你还喜欢
- 02-18 [驾车常识] 这3种违章务必15天内处理,否则或面临罚金翻倍?这是真的吗?
- 02-18 [驾车常识] 等红灯时前车出毛病不动了,后车实线变道被记3分?交警会如何判罚你知道吗?
- 02-18 [驾车常识] 高速上这些“新路标”80%的车主看不懂,你是其中的25%的人吗?
- 02-18 [涨姿势] 开车被追尾,若对方全责,记得多说这3句话,或能多拿到几笔赔偿 ,知道了吗?
- 02-18 [驾车常识] 两车同时并线,发生事故到底谁负责?看完就懂了
- 12-14 [涨姿势] 古埃及神庙发现的可能是克利奥帕特拉七世的半身像
- 12-14 [涨姿势] 谷歌的新型量子芯片解决了最好的超级计算机需要宇宙年龄四万亿倍才能破解的问题
- 12-14 [涨姿势] 新研究揭示了古代“天空圆盘”是如何制造的,粉碎了它是赝品的说法
- 12-14 [涨姿势] 器官芯片显示,眼镜蛇毒液通过血管塌陷而致人死亡
- 12-14 [涨姿势] 2000年前的岩石艺术,包括近140英尺长的蛇,可能标志着哥伦比亚和委内瑞拉的古代领土
- 12-14 [涨姿势] 嵌入人类基因组中的“化石病毒”与精神疾病有关
- 12-14 [涨姿势] 美国最新一例人类 H5N1 禽流感病例是第一个引起呼吸道症状的病例
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[短剧] 2025年06月03日 精选+付费短剧推荐25部
[软件合集] 25年6月3日 精选软件44个
[短剧合集] 2025年06月2日 精选+付费短剧推荐39部
[软件合集] 25年6月2日 精选软件18个
[软件合集] 25年6月1日 精选软件15个
[短剧合集] 2025年06月1日 精选+付费短剧推荐59部
[短剧] 2025年05月31日 精选+付费短剧推荐58部
[软件合集] 25年5月31日 精选软件66个
[电影] 黄沙漫天(2025) 4K.EDRMAX.杜比全景声 / 4K杜比视界/杜比全景声
[风口福利] 短视频红利新风口!炬焰创作者平台重磅激励来袭
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电视剧] 欢乐颂.5部全 (2016-2024)
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[影视] 【稀有资源】香港老片 艺坛照妖镜之96应召名册 (1996)
[剧集] 神经风云(2023)(完结).4K
[剧集] [BT] [TVB] [黑夜彩虹(2003)] [全21集] [粤语中字] [TV-RMVB]
[资源] B站充电视频合集,包含多位重量级up主,全是大佬真金白银买来的~【99GB】
[影视] 内地绝版高清录像带 [mpg]
[书籍] 古今奇书禁书三教九流资料大合集 猎奇必备珍藏资源PDF版 1.14G
[美图] 2W美女个美女小姐姐,饱眼福
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电影] 美国队长4 4K原盘REMUX 杜比视界 内封简繁英双语字幕 49G
[电影] 死神来了(1-6)大合集!
[软件合集] 25年05月13日 精选软件16个
[精品软件] 25年05月15日 精选软件18个
[绝版资源] 南与北 第1-2季 合集 North and South (1985) /美国/豆瓣: 8.8[1080P][中文字幕]
[软件] 25年05月14日 精选软件57个
[短剧] 2025年05月14日 精选+付费短剧推荐39部
[短剧] 2025年05月15日 精选+付费短剧推荐36部
- 最新评论
-
- 热门tag