开云app在线下载入口这套题, GPT-5.5、Opus 4.7加起来没考到1分, 东谈主类却拿了满分100?

现金捕鱼

你的位置：开云app在线下载入口 > 现金捕鱼 > 开云app在线下载入口这套题, GPT-5.5、Opus 4.7加起来没考到1分, 东谈主类却拿了满分100?

开云app在线下载入口这套题, GPT-5.5、Opus 4.7加起来没考到1分, 东谈主类却拿了满分100?
发布日期：2026-05-03 19:54 点击次数：98

开云app在线下载入口这套题， GPT-5.5、Opus 4.7加起来没考到1分，东谈主类却拿了满分100?

机器之机杼剪部

在大模子「卷生卷死」的今天，群众似乎仍是风俗了模子在各大榜单上刷出靠拢满分准确率。关联词，在一项名为 ARC-AGI-3 的基准测试中，号称当下「最红炸子鸡」的两款顶尖模子 ——OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7，却双双「折戟」……

近日，ARC Prize 官方发布了针对这两款顶级模子的详备分析诠释，兑现令东谈主胆怯：在濒临未见过的逻辑任务时，两者的推崇得分均低于 1%，GPT-5.5 得分 0.43%，Claude Opus 4.7 得分 0.18%。

这意味着，即便领有千亿级参数和近乎无尽的算力，这些模子在处理「全新逻辑环境」时的推崇，致使不如一个 6 岁的儿童。

这是怎么一趟事？

ARC-AGI-3：智能的「真伪试金石」

为了更好阐明这一收货，当先咱们来了解一下 ARC-AGI-3，这是由 Keras 之父 François Chollet 创立的基准测试系列的最新一代，于本年 3 月散布。

François Chollet 其时称，当一个 AI 系统在初度斗争通盘环境时，其行动成果概况达到或卓绝东谈主类水平，才算实在「攻克」ARC-AGI-3。

而凭证团队进行的无数的东谈主类测试兑现来看：在莫得任何先验老师、莫得任何证实的情况下，东谈主类在第一次斗争时不错 100% 惩办这些环境中贫乏，与此同期，当今通盘前沿的 AI 推理模子在这一测试上的推崇王人低于 1%。

彼时，OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 还莫得发布，如今来看，这两个模子也相通难逃这一兑现。

具体来看，ARC-AGI-3 是由 135 个全新环境构成的测试集，每个环境王人由东谈主类手工想象，用来测试模子濒临「未知」的武艺。

关于测试者来说，不管东谈主类照旧 AI，插足环境中将不会赢得任何的玩法证实，要前进，取得进展，必须作念到以下几点：

探索未知界面；

从寥落反馈中推断章程（构建宇宙模子）；

提议并考证假定；

从失实中收复；

将训戒转移到下一关（执续学习）。

每个环境的构建王人清寒模子频繁依赖的文化学问，只保留「抽象推理武艺自己」。

换句话说，不错把 ARC-AGI-3 阐明为，一个在「新颖性、隐晦性、打算、相宜性」上的最低共同测试聚积，而这些，恰是现实宇宙任务对智能体的中枢条目。因此，ARC-AGI-3 也被公以为当今最接近「东谈主类智能本体」的测试。

顶尖模子纷繁「溃败」背后的三大失败模式

这次，GPT-5.5 和 Claude Opus 4.7 的推崇得分均低于 1% 的收货诚然令东谈主「肉痛」，但比起收货，知谈背后的失败原因似乎更紧要。

ARC Prize 盘问团队通过分析 160 组齐备运行轨迹，包括模子的每一步操作和推理历程，回来出了导致模子「崩溃」的三大中枢失败模式：

一、真的的局部反馈，空虚的宇宙模子

模子概况阐明哪一步行动产生了变化（局部反馈），但无法将这种因果效应改动为一套通用的全局章程。

这是一个最为显著的原因。比如，在一个需要旋转物体以匹配插槽的任务中，模子概况识别出「我按下这个键，物体不错旋转」这一局部礼貌，但它无法将此逻辑飞腾为全局方针，进一步推理出：「旋转会影响兑现，因此我需要在行动前协调物体办法以匹配方针。」

换句话说，模子失败不是因为它们「看不见」，而在于无法把不雅察的事物整合成一个齐备的宇宙模子。

比例，Claude Opus 4.7 在运行任务「cd82」时，在第 4 步仍是知道到履行「ACTION3」不错旋转容器，随后在第 6 步也不雅察到履行「ACTION5」不错倾倒或蘸取油漆。关联词，它永远无法将这些碎屑化的领略改动为一个齐备的逻辑战略，即「先协调桶的办法，然后再蘸取油漆，以还原左上角的方针图像」。

Claude Opus 4.7 阐明 ACTION3 旋转物体，但未能阐明游戏的主见。

或者在职务「cn04」中，Claude Opus 4.7 虽然发现了一个成效的「旋转后遗弃」交互逻辑（这是正确的假定，见第 23 步），但随后却堕入了追求「举座体式重复」的误区（失实假定），开云并为了追求「顶行程度」的假象而偏离了方针（见第 60 步）。

二、被老师数据「敲诈」的抽象想维

模子对现时环境产生了误判，由于受到老师数据的影响，它们会将一个全新的「ARC-AGI-3」任务误以为是在玩另一种已知的游戏。

这种失败模式源于模子对老师数据的「失实抽象」，在屡次运行中，模子反复尝试通过将其映射到已知游戏来讲明目生的机制，这些游戏包括：「俄罗斯方块」「青蛙过河」「推箱子」「粉末游戏」「填充边幅」「打砖块」等。

虽然从中枢先验学问中索求抽象主见在表面上有助于惩办问题，但这些来自老师数据的字面类比反而「敲诈」了模子的行动吸收，从而演变成：局部视觉相似、导致被误以为齐备的游戏章程、行动办法被带偏。

比如，在职务「cd82」中，GPT-5.5 的想维被锚定在了流沙、物理模拟或「填充边幅」的游戏机制上；而在职务「ls20」中，它将本应是按键组合的逻辑误判为了「打砖块」。

三、通关了关卡，却没学会章程

模子幸运通过了某个特定关卡，却无法诓骗阿谁成效的奖励信号来强化并履行正确的后续操作。这证实，「通关并不等于阐明」。

Claude Opus 4.7 的两次纪录很好地证实了这少许。

在职务「ka59」中，Claude Opus 4.7 用 37 步完成了 Level 1，但它对「点击」这一操作的阐明其实是失实的 —— 它以为点击是在「传送现时变装」。虽然兑现看起来像是一次干净利落的告成，但本体上仅仅对底层机制的误读，正值碰上了一个相比优容的关卡。

因此，当插足 Level 2，需要实在的机制（体式匹配与推动）时，Opus 将这种失实阐明进一步固化为「点击每个方针来填充它」，兑现不言而喻，通盘历程澈底偏离、崩溃，且无法收复。

Opus 4.7 正在运行任务「ka59」，堕入了「盲目点击（Click-fishing）」的死轮回，游戏得分：2.04%。

在「ar25」任务中亦然如斯。Opus 在 Level 1 通过对「镜像移动」的正确解读成效通关（见第 4 步）；随后在 Level 2，它实践上仍是发现了新的「可移动轴」机制（见第 227 步），但紧接着它又堕入了幻觉，开动揣测出诸如「打孔」或「需要翻转」等并不存在的章程。

在这两种情况下，Level 1 的成效灭绝了模子对底层机制的缺失或歪曲，这种「局部告成」反而为失实的 Level 2 战略提供了一个看似自信的撑执框架。

这也证实，早期关卡的推动并不成可靠反应模子是否实在阐明了任务。如若莫得明确熟习模子「为什么能过关」，它就会把失实的领略带入下一关，并在此基础上不断放大偏差。

GPT-5.5 vs Opus 4.7：不同的「翻车」姿势

有益思的是，虽然 GPT-5.5 和 Opus 4.7 的得分收货王人不尽如东谈主意，但盘问团队通过对比两者的运行纪录发现，它们的失败花式绝对不同。

浅易来说便是，Claude Opus 4.7 的问题是「压缩错了」，而 GPT-5.5 的问题则在于「压缩不了」。

具体来看，Opus 4.7 在短周期的机制发现方面推崇更强。举例在职务「ar25」中，它险些坐窝识别出镜像结构，并得手通过 Level 1；在职务「ka59」中，即便宇宙模子并不齐备，它也能读出「双变装、两边针」的布局，并完成较短的 Level 1 操作序列。

但问题在于，它也更容易收拢一个失实的「恒定特征」，并坚忍履行下去。

比如在职务「cn04」中，它构建了一套「程度 / 计时 / 退换」的失实表面，并在这一假定下不断尝试操作（第 60 步）。它如实变成了一套「可运行的讲明」，仅仅这套讲明是错的。

GPT-5.5 则是另一个顶点。它的「假定生成」更庸俗，这使得它更有可能说出正确的想路，但同期也更难将其改动为具体行动。

比如在职务「ar25」中，它识别出了镜像效应，但不断再行灵通「可能的游戏类型空间」，在「俄罗斯方块」「青蛙过河」「乒乓球」「汉诺塔」之间反复横跳，永远无法坚忍地履行镜像逻辑。而在职务「ka59」中，它也构建出了正确的对象结构 —— 两个方针抽象和一个可切换的第二变装 —— 但永远莫得实在履行这一阐明。

换句话说，Claude Opus 4.7 有点像「过度自信的直观主义者」，GPT-5.5 则像「想维发散的表面家」。

而归根结底，两者之间的这种各异在于「压缩」武艺的分离：Claude Opus 4.7 将不雅察压缩成了一个「自信但失实」的表面，而 GPT-5.5 则险些无法完成压缩，永远停留在分散的可能性之中。

不得不说，这次 Claude Opus 4.7 和 GPT-5.5 双双在 ARC-AGI-3，这一号称当今最接近「东谈主类智能本体」的测试上的低分推崇开云app在线下载入口，揭示了一个事实：AGI 之路「谈阻且长」啊。

亚搏体育官方网站 - YABO

上一篇：开云app在线下载入口伊朗外长探听俄罗斯，和普京一谈便是90分钟

下一篇：开云app下载与大唐一世相爱相杀的吐蕃在度过巅峰后若何走向没落的？

开云app在线下载入口

让建站和SEO变得简单