当前位置：首页 > 休闲

ARC挑战不适合大型模型?为什么题目中网格数量多,大模型表现

O3在ARC-AGI中超难推理任务的挑题目成就，确实给人类带来了许多震撼。战不中网

然而，适合在专门研究了它不能做的大型大模问题后，有了更有趣的模型发现——

o3之所以不做这些题，是格数因为也许不是因为太难，而是量多因为题目太大了。

来自英国的型表现ML工程师Mikel Bober-Irizar(不妨叫他米哥)，仔细观察ARC题目。挑题目

结果米哥发现，战不中网题目中网格规模越大，大型模型的大型大模性能就越差。

而且不仅仅是模型o3，o1和o1 mini，格数还有隔壁的量多Claude，都出现了这种现象。

米哥的研究引起了人们对大模型工作机制的广泛讨论。

世界上第一位全职提示词工程师Riley Goodside看完之后，我也认为这是一项很好的研究。

大模型被困在网格规模中

或者先简单回顾一下ARC挑战，题目中有色块的网格阵列(颜色以文本形式表示，颜色以数字表示)，大模型需要观察每个主题中的三个输入-输出示例，然后根据规则填充新的空白网格。

米哥发现，在ARC挑战中，规模越大，网格越多，大模型的性能就越差。

o3逃不过这样的魔咒，但与其他模型相比，o3的表现明显下降较晚，约1024个网格后(请记住这个位置，以后再谈)。

为了进一步验证这一发现，米哥还用o1-mini进行了实际测试。

在下图中，左右栏的标题乍一看似乎没有什么不同，但在右边，米哥切割了网格的细粒度，原来的网格被切割成4(2)×2）个。

结果原来能做对的题，切成小块后，o1-mini真的不起作用。

此外，米哥还统计了ARC数据集中的规模分布，结果恰好是1024个像素中规模最大的问题。

还记得o3成绩下降趋势突然变大的位置，正好在1024附近。

米哥认为，这是o3在ARC挑战中取得优异成绩的重要因素，而其他模型由于相应的小规模试题所占比例较小，成绩较差。

所以在米哥看来，ARC挑战并不能完全反映大模型的真实推理能力——许多模型被低估，o3被高估。

ARC挑战不适合大型模型？

那为什么题目中网格数量多，大模型表现不好呢？

先来看看米哥的分析。

米哥引用了纽约大学的一项研究结果（arXiv：2409.01374），这项研究发现，人类在挑战这样的问题时不会出现这种现象。

如果在人类和模型之间进行比较，o3的表现可以说是在规模较小的时候击败了人类，但是当规模较大的时候，获胜者就变成了人类。

这说明大模型在解决这类问题时，思维方式和人类还是有区别的。

当然，很明显，大模型在挑战ARC时看到的不是图像，而是以数字代表的矩阵，但区别不止于此。

面对ARC问题，即使用这种数字矩阵来表示，人类也能看到视觉信息，理解位置关系。

ARC是一个需要跨行和列推理的二维问题，但大模型在处理token时是以一维格式进行的。

这意味着当大型模型进行跨列推理时，需要结合较长的上下文信息。

随着网格的扩大，模型需要推理更长的上下文，并且必须组合和推理相距较远的数字。

米哥曾与剑桥大学高级研究员Soumyaya Banerjeee之前进行的一项研究（arXiv：2402.03507）表明，通过90度旋转矩阵，模型基于行和列进行推理，是直接问题的两倍。

因此米哥认为，是观察问题的维度影响了大型模型的表现，ARC这一任务并不适合大型模型。

他还说，他在NeurIPS上听到了一个很好的类比——

将二维ARC任务交给大模型，就像期待人类在四维空间中推理一样。

与此同时，网友们也指出，视觉仍然是一个重要因素，尽管它本质上涉及到维度差异。

想象一下，如果人们没有视觉能力，仅仅通过听或其他方式获取网格信息，就很难直接构建二维矩阵。

但说到这里，即使模型有“视觉”能力，也会将视觉信息转化为Token，这可能与人类的视觉不一样。

网民认为，真正的视觉需要能够处理并行输入的信息，而不是一个接一个地串行输入，二进制IO数据流可能是一个解决方案。

One More Thing

根据ARC挑战官方的说法，ARC-下一代ARCC-AGI-2即将推出。

早期测试表明，它将对o3构成重大挑战——

即使在高计算模式下，o3的得分也可能降低到30%以下(聪明人仍能得分超过95%)。

来源：量子位

上一篇

天玑8400正式发布！开启高阶智能手机全大核计算时代
下一篇

vivo X200 Pro影像细节曝光：5000万大底+2亿潜望长焦

ARC挑战不适合大型模型?为什么题目中网格数量多,大模型表现

相关推荐

一加13首销半小时即破10万台！高配版本占比80%

博爱特色美食：探寻地名背后的美味佳肴

厦门集美当地特色美食：一场味蕾的盛宴

南昌特色美食送人：美味佳肴，尽享地域风情

vivo原系统5正式发布：自然流畅体验，让用户超有AI

南海桂城特色美食：一场味蕾的盛宴