当前位置:首页 > 休闲

ARC挑战不适合大型模型?为什么题目中网格数量多,大模型表现

O3在ARC-AGI中超难推理任务的挑题目成就,确实给人类带来了许多震撼。战不中网

然而,适合在专门研究了它不能做的大型大模问题后,有了更有趣的模型发现——

o3之所以不做这些题,是格数因为也许不是因为太难,而是量多因为题目太大了

来自英国的型表现ML工程师Mikel Bober-Irizar(不妨叫他米哥),仔细观察ARC题目。挑题目

结果米哥发现,战不中网题目中网格规模越大,大型模型的大型大模性能就越差

而且不仅仅是模型o3,o1和o1 mini,格数还有隔壁的量多Claude,都出现了这种现象。

米哥的研究引起了人们对大模型工作机制的广泛讨论。

世界上第一位全职提示词工程师Riley Goodside看完之后,我也认为这是一项很好的研究。

大模型被困在网格规模中

或者先简单回顾一下ARC挑战,题目中有色块的网格阵列(颜色以文本形式表示,颜色以数字表示),大模型需要观察每个主题中的三个输入-输出示例,然后根据规则填充新的空白网格。

米哥发现,在ARC挑战中,规模越大,网格越多,大模型的性能就越差。

o3逃不过这样的魔咒,但与其他模型相比,o3的表现明显下降较晚,约1024个网格后(请记住这个位置,以后再谈)

为了进一步验证这一发现,米哥还用o1-mini进行了实际测试。

在下图中,左右栏的标题乍一看似乎没有什么不同,但在右边,米哥切割了网格的细粒度,原来的网格被切割成4(2)×2)个。

结果原来能做对的题,切成小块后,o1-mini真的不起作用。

此外,米哥还统计了ARC数据集中的规模分布,结果恰好是1024个像素中规模最大的问题。

还记得o3成绩下降趋势突然变大的位置,正好在1024附近。

米哥认为,这是o3在ARC挑战中取得优异成绩的重要因素,而其他模型由于相应的小规模试题所占比例较小,成绩较差。

所以在米哥看来,ARC挑战并不能完全反映大模型的真实推理能力——许多模型被低估,o3被高估

ARC挑战不适合大型模型?

那为什么题目中网格数量多,大模型表现不好呢?

先来看看米哥的分析。

米哥引用了纽约大学的一项研究结果(arXiv:2409.01374),这项研究发现,人类在挑战这样的问题时不会出现这种现象。

如果在人类和模型之间进行比较,o3的表现可以说是在规模较小的时候击败了人类,但是当规模较大的时候,获胜者就变成了人类。

这说明大模型在解决这类问题时,思维方式和人类还是有区别的。

当然,很明显,大模型在挑战ARC时看到的不是图像,而是以数字代表的矩阵,但区别不止于此。

面对ARC问题,即使用这种数字矩阵来表示,人类也能看到视觉信息,理解位置关系。

ARC是一个需要跨行和列推理的二维问题,但大模型在处理token时是以一维格式进行的。

这意味着当大型模型进行跨列推理时,需要结合较长的上下文信息。

随着网格的扩大,模型需要推理更长的上下文,并且必须组合和推理相距较远的数字。

米哥曾与剑桥大学高级研究员Soumyaya Banerjeee之前进行的一项研究(arXiv:2402.03507)表明,通过90度旋转矩阵,模型基于行和列进行推理,是直接问题的两倍。

因此米哥认为,是观察问题的维度影响了大型模型的表现,ARC这一任务并不适合大型模型。

他还说,他在NeurIPS上听到了一个很好的类比——

将二维ARC任务交给大模型,就像期待人类在四维空间中推理一样。

与此同时,网友们也指出,视觉仍然是一个重要因素,尽管它本质上涉及到维度差异。

想象一下,如果人们没有视觉能力,仅仅通过听或其他方式获取网格信息,就很难直接构建二维矩阵。

但说到这里,即使模型有“视觉”能力,也会将视觉信息转化为Token,这可能与人类的视觉不一样。

网民认为,真正的视觉需要能够处理并行输入的信息,而不是一个接一个地串行输入,二进制IO数据流可能是一个解决方案。

One More Thing

根据ARC挑战官方的说法,ARC-下一代ARCC-AGI-2即将推出。

早期测试表明,它将对o3构成重大挑战——

即使在高计算模式下,o3的得分也可能降低到30%以下(聪明人仍能得分超过95%)

来源:量子位

分享到: