智能的度量:o3 与 AI 的分水岭
“当我看到这些分数的时候,我意识到我需要改变我的世界观了。”
在 OpenAI 的发布会现场,ARC Prize Foundation 的负责人 Greg Kamradt 有些不安。作为全球最严苛的 AI 测试基准之一,ARC-AGI 每年都会举办奖金不菲的竞赛。无数模型在这个测试面前折戟沉沙,以至于业内开玩笑说这个基准“感觉已经存在了几个世纪”。
但就在 2024 年的最后几天,情况发生了变化。
OpenAI 的最新模型 o3 不仅打破了记录,更令人震惊的是:在高算力测试中,它达到了 88% 的得分,超越了人类平均水平的 85%。
“我需要重新校准我对 AI 能力的认知,特别是在这个被 o3 开启的新世界里。”Greg 继续说道。
超人的 o3
在 OpenAI 连续 12 天的发布马拉松中,o3 是最后一棒。这个时间节点的选择颇具戏剧性:此前的几天里,OpenAI 和 Google 仿佛陷入了一场隐形的竞速:Sora 对阵 Veo 2,GPT-4 对阵 Gemini Flash 2.0 Experimental,o1 对阵 Gemini Flash 2.0 Thinking Mode。当 800-CHATGPT 这样的功能发布出现时,不少观察者认为这是一招缓兵之计,为最后的王牌 o3 争取时间。
发布前夕的情况也颇为微妙。关键人物的离职消息传出,让业内开始担心:o3 会不会重蹈 Sora 的覆辙,只是一个仓促的“占坑”发布?
但 o3 的发布过程打破了这些猜测。虽然 Sam Altman 在开场时将 "launch" 改口为 "announce",但随后的展示却令人印象深刻。OpenAI 的研究主管 Mark Chen 没有用华丽的演示,而是直接展示了 o3 在编码和数学能力上相对于 o1 的巨大飞跃。
最引人注目的是 ARC-AGI 测试的结果。这个基准测试的重要性,通过 Greg Kamradt 的介绍得到了充分展现:
它在人工智能领域已经 5 年无人能敌,感觉就像几个世纪以来一直如此。击败 ARC-AGI 的系统将成为迈向通用智能的重要里程碑。
而 o3 正是这个里程碑的缔造者:在 high compute 和 low compute 两种场景下,o3 分别达到了 88% 和 76% 的惊人成绩。更具历史意义的是,它在高算力场景中超越了人类水平线(85%)。
在整个发布过程中,有一个有趣的细节:Sam Altman 和 Greg 不断拿研究主管 Mark Chen 作为参照物。作为美国信息学奥赛(IOI)的国家队教练,Mark Chen 的数学和编程能力远超常人。这种看似调侃的比较背后,实际上暗示了一个更深层的信息:AI 已经可以在某些特定领域与最优秀的人类专家较量。
ARC Prize Foundation 的 官方文章 这样写道:
OpenAI 的新 o3 模型代表了 AI 适应新任务的能力的重大飞跃。这不仅仅是渐进式的改进,而是一个真正的突破,标志着 AI 能力与 LLM 先前的局限性相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平的表现。
这不仅仅是一场普通的产品发布会,而是一个重要的信号:AI 正在从模仿人类迈向真正的智能。要理解这一跨越的意义,我们需要深入探讨智能的本质。
于是,我去读了一下为 ARC-AGI 奠基的论文:On the Measure of Intelligence。