智能的度量：o3 与 AI 的分水岭

“当我看到这些分数的时候，我意识到我需要改变我的世界观了。”

在 OpenAI 的发布会现场，ARC Prize Foundation 的负责人 Greg Kamradt 有些不安。作为全球最严苛的 AI 测试基准之一，ARC-AGI 每年都会举办奖金不菲的竞赛。无数模型在这个测试面前折戟沉沙，以至于业内开玩笑说这个基准“感觉已经存在了几个世纪”。

但就在 2024 年的最后几天，情况发生了变化。

OpenAI 的最新模型 o3 不仅打破了记录，更令人震惊的是：在高算力测试中，它达到了 88% 的得分，超越了人类平均水平的 85%。

“我需要重新校准我对 AI 能力的认知，特别是在这个被 o3 开启的新世界里。”Greg 继续说道。

超人的 o3

在 OpenAI 连续 12 天的发布马拉松中，o3 是最后一棒。这个时间节点的选择颇具戏剧性：此前的几天里，OpenAI 和 Google 仿佛陷入了一场隐形的竞速：Sora 对阵 Veo 2，GPT-4 对阵 Gemini Flash 2.0 Experimental，o1 对阵 Gemini Flash 2.0 Thinking Mode。当 800-CHATGPT 这样的功能发布出现时，不少观察者认为这是一招缓兵之计，为最后的王牌 o3 争取时间。

发布前夕的情况也颇为微妙。关键人物的离职消息传出，让业内开始担心：o3 会不会重蹈 Sora 的覆辙，只是一个仓促的“占坑”发布？

但 o3 的发布过程打破了这些猜测。虽然 Sam Altman 在开场时将 "launch" 改口为 "announce"，但随后的展示却令人印象深刻。OpenAI 的研究主管 Mark Chen 没有用华丽的演示，而是直接展示了 o3 在编码和数学能力上相对于 o1 的巨大飞跃。

最引人注目的是 ARC-AGI 测试的结果。这个基准测试的重要性，通过 Greg Kamradt 的介绍得到了充分展现：

它在人工智能领域已经 5 年无人能敌，感觉就像几个世纪以来一直如此。击败 ARC-AGI 的系统将成为迈向通用智能的重要里程碑。

而 o3 正是这个里程碑的缔造者：在 high compute 和 low compute 两种场景下，o3 分别达到了 88% 和 76% 的惊人成绩。更具历史意义的是，它在高算力场景中超越了人类水平线（85%）。

在整个发布过程中，有一个有趣的细节：Sam Altman 和 Greg 不断拿研究主管 Mark Chen 作为参照物。作为美国信息学奥赛（IOI）的国家队教练，Mark Chen 的数学和编程能力远超常人。这种看似调侃的比较背后，实际上暗示了一个更深层的信息：AI 已经可以在某些特定领域与最优秀的人类专家较量。

ARC Prize Foundation 的官方文章这样写道：

OpenAI 的新 o3 模型代表了 AI 适应新任务的能力的重大飞跃。这不仅仅是渐进式的改进，而是一个真正的突破，标志着 AI 能力与 LLM 先前的局限性相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统，可以说在 ARC-AGI 领域接近人类水平的表现。

这不仅仅是一场普通的产品发布会，而是一个重要的信号：AI 正在从模仿人类迈向真正的智能。要理解这一跨越的意义，我们需要深入探讨智能的本质。

于是，我去读了一下为 ARC-AGI 奠基的论文：On the Measure of Intelligence。