ARC挑战不适合大型模型?为什么题目中网格数量多,大模型表现
O3在ARC-AGI中超难推理任务的挑题目成就,确实给人类带来了许多震撼。战不中网 然而,适合在专门研究了它不能做的大型大模问题后,有了更有趣的模型发现—— o3之所以不做这些题,是格数因为也许不是因为太难,而是量多因为题目太大了。 来自英国的型表现ML工程师Mikel Bober-Irizar(不妨叫他米哥),仔细观察ARC题目。挑题目 结果米哥发现,战不中网题目中网格规模越大,大型模型的大型大模性能就越差。 而且不仅仅是模型o3,o1和o1 mini,格数还有隔壁的量多Claude,都出现了这种现象。 米哥的研究引起了人们对大模型工作机制的广泛讨论。 世界上第一位全职提示词工程师Riley Goodside看完之后,我也认为这是一项很好的研究。 大模型被困在网格规模中 或者先简单回顾一下ARC挑战,题目中有色块的网格阵列(颜色以文本形式表示,颜色以数字表示),大模型需要观察每个主题中的三个输入-输出示例,然后根据规则填充新的空白网格。 米哥发现,在ARC挑战中,规模越大,网格越多,大模型的性能就越差。 o3逃不过这样的魔咒,但与其他模型相比,o3的表现明显下降较晚,约1024个网格后(请记住这个位置,以后再谈)。 为了进一步验证这一发现,米哥还用o1-mini进行了实际测试。 在下图中,左右栏的标题乍一看似乎没有什么不同,但在右边,米哥切割了网格的细粒度,原来的网格被切割成4(2)×2)个。 结果原来能做对的题,切成小块后,o1-mini真的不起作用。 此外,米哥还统计了ARC数据集中的规模分布,结果恰好是1024个像素中规模最大的问题。 还记得o3成绩下降趋势突然变大的位置,正好在1024附近。 米哥认为,这是o3在ARC挑战中取得优异成绩的重要因素,而其他模型由于相应的小规模试题所占比例较小,成绩较差。 所以在米哥看来,ARC挑战并不能完全反映大模型的真实推理能力——许多模型被低估,o3被高估。 ARC挑战不适合大型模型? 那为什么题目中网格数量多,大模型表现不好呢? 先来看看米哥的分析。 米哥引用了纽约大学的一项研究结果(arXiv:2409.01374),这项研究发现,人类在挑战这样的问题时不会出现这种现象。 如果在人类和模型之间进行比较,o3的表现可以说是在规模较小的时候击败了人类,但是当规模较大的时候,获胜者就变成了人类。 这说明大模型在解决这类问题时,思维方式和人类还是有区别的。 当然,很明显,大模型在挑战ARC时看到的不是图像,而是以数字代表的矩阵,但区别不止于此。 面对ARC问题,即使用这种数字矩阵来表示,人类也能看到视觉信息,理解位置关系。 ARC是一个需要跨行和列推理的二维问题,但大模型在处理token时是以一维格式进行的。 这意味着当大型模型进行跨列推理时,需要结合较长的上下文信息。 随着网格的扩大,模型需要推理更长的上下文,并且必须组合和推理相距较远的数字。 米哥曾与剑桥大学高级研究员Soumyaya Banerjeee之前进行的一项研究(arXiv:2402.03507)表明,通过90度旋转矩阵,模型基于行和列进行推理,是直接问题的两倍。 因此米哥认为,是观察问题的维度影响了大型模型的表现,ARC这一任务并不适合大型模型。 他还说,他在NeurIPS上听到了一个很好的类比—— 将二维ARC任务交给大模型,就像期待人类在四维空间中推理一样。 与此同时,网友们也指出,视觉仍然是一个重要因素,尽管它本质上涉及到维度差异。 想象一下,如果人们没有视觉能力,仅仅通过听或其他方式获取网格信息,就很难直接构建二维矩阵。 但说到这里,即使模型有“视觉”能力,也会将视觉信息转化为Token,这可能与人类的视觉不一样。 网民认为,真正的视觉需要能够处理并行输入的信息,而不是一个接一个地串行输入,二进制IO数据流可能是一个解决方案。 One More Thing 根据ARC挑战官方的说法,ARC-下一代ARCC-AGI-2即将推出。 早期测试表明,它将对o3构成重大挑战—— 即使在高计算模式下,o3的得分也可能降低到30%以下(聪明人仍能得分超过95%)。 来源:量子位












- 最近发表
- 随机阅读
-
- 豆瓣9.1,短短90分钟,彻底刷新认知
- 南江特色美食:探寻地方风味,品味独特魅力
- 厦门十大特色美食小吃:一场味蕾的盛宴
- 厦门特色美食小吃街:探寻美食的秘密天堂
- 计算机屏幕监控方法是什么?
- 南昌特色美食餐厅推荐:探寻赣菜之美
- 南昌特色美食小吃一览:唤醒味蕾的地道美味
- 印度车站特色美食:一场味蕾的异域之旅
- "牛仔很忙"变装短视频爆火,肯豆&海狸教你玩转牛仔造型!
- 厚街特色美食:探寻美味背后的故事
- 南昌特色美食小吃大全:一场味蕾的盛宴
- 南通特色美食做法:揭秘地道的美食魅力
- 四款时髦配色,面面都好看!OPPO Reno13 系列颜色详解
- 南川特色美食推荐表:一场味蕾的盛宴
- 南昌特色美食街:一站式美食之旅,不容错过的味蕾盛宴
- 南浔特色美食攻略:探寻江南美味之旅
- 华为用户注意!鸿蒙 HarmonyOS NEXT Beta 升级用户可得“影视会员”和“超级音乐 VIP”
- 南昌特色美食:一场味蕾的盛宴
- 南昌特色美食特产:舌尖上的美味探寻
- 厦门特色美食攻略:探寻海岛美味之光
- 搜索
-
- 友情链接
-
- 做PS电脑配置:打造专业图像处理工作站
- 两千块钱组装电脑配置:性价比之选
- 中关村选电脑配置:打造你的个性化高性能电脑
- 主配电脑配置推荐:打造高效办公与游戏体验
- 做网站电脑配置:打造高效开发环境的全面指南
- 专业修图电脑装机配置
- 代练电脑配置推荐:高效助力游戏体验
- 作图渲染配置电脑:打造专业级图形工作站
- 主流电脑台式配置:打造高效办公与游戏体验
- 中端游戏电脑配置:打造性价比高的游戏体验
- 做3D用什么电脑配置?专业指南带你入门
- 主播推荐游戏电脑配置:打造极致游戏体验
- 两到三千电脑配置:性价比之选,满足日常需求
- 专业画图电脑配置推荐:打造高效设计工作流
- 做游戏的电脑配置高吗?揭秘游戏电脑配置的真相
- 做图和视频的电脑配置:专业选择,高效创作
- 全特效CF电脑配置:打造极致游戏体验
- 优酷客户端电脑配置:打造畅快观影体验