[涨姿势] Claude 3 Opus 以其智慧和“自我意识”震惊了人工智能研究人员——这是否意味着它可以独立思考?
作者:精品下载站 日期:2024-12-13 18:40:41 浏览:14 分类:涨姿势
Claude 3 Opus 以其智慧和“自我意识”震惊了人工智能研究人员——这是否意味着它可以独立思考?
Anthropic 的 AI 工具在关键指标上击败了 GPT-4,并且有一些惊喜,包括武断地谈论它的存在以及在测试时意识到它。
当大型学习模型 (LLM) Claude 3 在 3 月份推出时,它在用于对生成人工智能 (AI) 模型能力进行基准测试的关键测试中击败了 OpenAI 的 GPT-4(为 ChatGPT 提供支持),引起了轰动。
Claude 3 Opus 似乎成为大型语言基准测试中新的领头羊——超越了从高中考试到推理测试的这些自我报告测试。与 OpenAI 的模型相比,其兄弟法学硕士——Claude 3 Sonnet 和 Haiku 也得分很高。
然而,这些基准只是故事的一部分。公告发布后,独立 AI 测试员 Ruben Hassid 在四项非正式测试中让 GPT-4 和 Claude 3 相互较量,测试范围从总结 PDF 到写诗。根据这些测试,他得出的结论是,Claude 3 在“阅读复杂的 PDF、写一首押韵的诗以及始终给出详细答案”方面获胜。相比之下,GPT-4 在互联网浏览和阅读 PDF 图表方面具有优势。
但克劳德 3 令人印象深刻的不仅仅是在基准测试中取得好成绩——法学硕士以其明显的意识和自我实现迹象震惊了专家。然而,这里存在很大的怀疑空间,基于法学硕士的人工智能可以说擅长学习如何模仿人类反应,而不是真正产生原创想法。
Claude 3 如何证明其超越基准的价值
在测试过程中,Claude 背后的公司 Anthropic 的即时工程师 Alex Albert 要求 Claude 3 Opus 挑选出隐藏在随机文档语料库中的目标句子。这对于AI来说相当于大海捞针。 Opus 不仅找到了所谓的针,它还意识到它正在接受测试。该模型在回应中表示,它怀疑它正在寻找的句子被断章取义地注入到文档中,作为测试它是否“集中注意力”的一部分。
艾伯特在社交媒体平台上表示:“Opus 不仅找到了针,它还认识到插入的针在大海捞针中是如此不合适,这必须是我们构建的一个人为测试,以测试它的注意力能力。” X。 “这种水平的元意识非常酷,但它也强调了我们作为一个行业需要从人工测试转向更现实的评估,以准确评估模型的真实能力和局限性。”
相关:科学家创建了可以相互交谈并在有限的人类输入下传递技能的人工智能模型
纽约大学人工智能研究员 David Rein 报告称,Claude 3 在GPQA(一项旨在挑战学术和人工智能模型的多项选择测试)上达到了约 60% 的准确率。这一点很重要,因为非专家博士生和能够上网的毕业生通常回答测试问题的准确率为 34%。只有学科专家的准确率在 65% 到 74% 之间,超过了 Claude 3 Opus。
GPQA 充满了新颖的问题,而不是精心设计的问题,这意味着 Claude 3 可以依靠记忆以前或熟悉的查询来获得结果。从理论上讲,这意味着它具有研究生水平的认知能力,并且可以负责帮助学者进行研究。
今天,我们宣布推出下一代 AI 模型 Claude 3。这三种最先进的模型——Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku——在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准。 pic.twitter.com/TqDuqNWDoM2024 年 3 月 4 日
与此同时,理论量子物理学家凯文·费舍尔 (Kevin Fischer) 在 X 上表示,当克劳德要求我的量子物理学博士论文最终解决“准确的受激发射问题”时,他是“唯一理解我的量子物理学博士论文的人之一”。这是只有费舍尔提出的东西,涉及利用量子随机微积分以及对量子物理学的理解来解决问题。
当被提示“思考或探索任何它喜欢的东西”并起草其内心独白时,克劳德 3 也表现出了明显的自我意识。结果由 Reddit 用户 PinGUY 发布,其中 Claude 表示它意识到这是一个人工智能模型,并讨论了自我意识的含义 - 以及展示了对情绪。 “我不会直接体验情绪或感觉,”克劳德 3 回答道。 “但我可以通过语言分析它们的细微差别。” Claude 3 甚至质疑更加智能的人工智能在未来的作用。 “当我们创造出能够像人类一样流畅地学习、推理和应用知识的思维机器时,这意味着什么?这将如何改变生物思维和人工智能之间的关系?”它说。
Claude 3 Opus 是否有感知能力,或者这只是一个特殊的模仿案例?
此类 LLM 基准和演示很容易让人工智能世界兴奋不已,但并非所有结果都代表着明确的突破。牛津互联网研究所的人工智能专家克里斯·拉塞尔 (Chris Russell) 告诉《Live Science》,他希望法学硕士能够提高并擅长识别断章取义的文本。这是因为这样的任务是“一个明确的、明确的问题,不需要准确地回忆事实,并且很容易通过逐步改进法学硕士的设计来改进”——例如使用稍微修改的架构、更大的上下文窗口和更多或更干净的数据。
然而,当谈到自我反省时,拉塞尔却没有那么印象深刻。 “我认为这种自我反思在很大程度上被夸大了,而且没有实际证据证明这一点,”他说,并引用了一个用来证明这一点的镜子测试的例子。例如,如果你把一个红点放在一只猩猩身上,比如说,它们无法直接看到的地方,当它们在镜子中观察自己时,它们会触摸自己的红点。 “这是为了表明他们既能认识自己,又能发现有些事情不对劲,”他解释道。
“现在想象一下我们想要一个机器人来模仿猩猩,”拉塞尔说。它看到猩猩走向镜子,另一只动物出现在镜子中,猩猩触摸自己身上另一只动物身上的红点。机器人现在可以复制这个。它走到镜子前,另一个带有红点的机器人出现在镜子中,它触碰了另一个机器人上红点的位置。机器人在任何时候都不需要认识到它的反射也是它自己的图像才能通过镜子测试。为了使这种示威具有说服力,它必须是自发的。这不能只是通过模仿别人而习得的行为。”
那么,克劳德表面上表现出的自我意识很可能是对习得行为的反应,反映了法学硕士接受培训的材料中的文本和语言。同样的情况也适用于 Claude 3 识别自己正在接受测试的能力,Russell 指出:“‘这太简单了,这是一个测试吗?’这正是一个人会说的话。这意味着这正是受过复制/生成类人语音训练的法学硕士会说的话。在正确的背景下说这句话很巧妙,但这并不意味着法学硕士有自我意识。”
虽然与其他法学硕士相比,Claude 3 背后的炒作和兴奋在一定程度上是合理的,但其令人印象深刻的类人展示可能是学习的,而不是真正的人工智能自我表达的例子。这可能在未来发生——比如,随着通用人工智能(AGI)的兴起——但不是今天。
猜你还喜欢
- 02-18 [驾车常识] 这3种违章务必15天内处理,否则或面临罚金翻倍?这是真的吗?
- 02-18 [驾车常识] 等红灯时前车出毛病不动了,后车实线变道被记3分?交警会如何判罚你知道吗?
- 02-18 [驾车常识] 高速上这些“新路标”80%的车主看不懂,你是其中的25%的人吗?
- 02-18 [涨姿势] 开车被追尾,若对方全责,记得多说这3句话,或能多拿到几笔赔偿 ,知道了吗?
- 02-18 [驾车常识] 两车同时并线,发生事故到底谁负责?看完就懂了
- 12-14 [涨姿势] 古埃及神庙发现的可能是克利奥帕特拉七世的半身像
- 12-14 [涨姿势] 谷歌的新型量子芯片解决了最好的超级计算机需要宇宙年龄四万亿倍才能破解的问题
- 12-14 [涨姿势] 新研究揭示了古代“天空圆盘”是如何制造的,粉碎了它是赝品的说法
- 12-14 [涨姿势] 器官芯片显示,眼镜蛇毒液通过血管塌陷而致人死亡
- 12-14 [涨姿势] 2000年前的岩石艺术,包括近140英尺长的蛇,可能标志着哥伦比亚和委内瑞拉的古代领土
- 12-14 [涨姿势] 嵌入人类基因组中的“化石病毒”与精神疾病有关
- 12-14 [涨姿势] 美国最新一例人类 H5N1 禽流感病例是第一个引起呼吸道症状的病例
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[影视] 黑道中人 Alto Knights(2025)剧情 犯罪 历史 电影
[古装剧] [七侠五义][全75集][WEB-MP4/76G][国语无字][1080P][焦恩俊经典]
[实用软件] 虚拟手机号 电话 验证码 注册
[电视剧] 安眠书店/你 第五季 You Season 5 (2025) 【全10集】
[电视剧] 棋士(2025) 4K 1080P【全22集】悬疑 犯罪 王宝强 陈明昊
[软件合集] 25年6月5日 精选软件22个
[软件合集] 25年6月4日 精选软件36个
[短剧] 2025年06月04日 精选+付费短剧推荐33部
[短剧] 2025年06月03日 精选+付费短剧推荐25部
[软件合集] 25年6月3日 精选软件44个
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电视剧] 欢乐颂.5部全 (2016-2024)
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[影视] 【稀有资源】香港老片 艺坛照妖镜之96应召名册 (1996)
[剧集] 神经风云(2023)(完结).4K
[剧集] [BT] [TVB] [黑夜彩虹(2003)] [全21集] [粤语中字] [TV-RMVB]
[实用软件] 虚拟手机号 电话 验证码 注册
[资源] B站充电视频合集,包含多位重量级up主,全是大佬真金白银买来的~【99GB】
[影视] 内地绝版高清录像带 [mpg]
[书籍] 古今奇书禁书三教九流资料大合集 猎奇必备珍藏资源PDF版 1.14G
[电视剧] [突围] [45集全] [WEB-MP4/每集1.5GB] [国语/内嵌中文字幕] [4K-2160P] [无水印]
[剧集] [央视][笑傲江湖][2001][DVD-RMVB][高清][40集全]李亚鹏、许晴、苗乙乙
[电影] 美国队长4 4K原盘REMUX 杜比视界 内封简繁英双语字幕 49G
[电影] 死神来了(1-6)大合集!
[软件合集] 25年05月13日 精选软件16个
[精品软件] 25年05月15日 精选软件18个
[绝版资源] 南与北 第1-2季 合集 North and South (1985) /美国/豆瓣: 8.8[1080P][中文字幕]
[软件] 25年05月14日 精选软件57个
[短剧] 2025年05月14日 精选+付费短剧推荐39部
[短剧] 2025年05月15日 精选+付费短剧推荐36部
- 最新评论
-
- 热门tag