03.24.25: 给 AI 打补丁

在 Meta 的代码库中,有一个并不显眼的 & 符号。

一位工程师在广告服务系统的热点调用路径中发现了一个数组拷贝,使用了 C++ 中的一个常见的模式:⁠auto 关键字。他在⁠ auto 后面加上一个 & 符号,把值拷贝改成引用传递,提交了代码。

这一个 & 符号的修改,为 Meta 节省了 15,000 台服务器。

一字之优,十年之功,既是人类的知识和经验,也是勇气与直觉。

问题是:我们能期待 AI 交付这样的结果吗?

一个合理的期待

自学成才的统计学家 George Box 讲过:所有模型都是错的,但有一些是有用的(All models are wrong, some are useful)。这句话就是在讲,真实世界的复杂性和模糊性难以通过模型还原。上周的 GTC 上,黄教主的“AI 工厂”经济学把一切都简化成了 token 的进和出,一条帕累托曲线,上面总能找到一种合适的模式,在算力和能源的限定下,找到规模产出和效率最优的结合点。

而真实世界中,问题的解决往往在于找到需要解决的问题本身。这不是“大海捞针”,也不是预测下一个 token,它没有既定路径,而是需要在浓雾掩盖的问题空间中构造出脚手架和瞭望台。

找出那个添加 & 符号的位置,是在 Meta 的 Strobelight 分析工具中发现的:

这位工程师转动了几个旋钮,调整了他的 Scuba 查询,碰巧注意到 Meta 最大的广告服务之一中一个特别热门的调用路径中有一个这样的副本。然后他打开代码编辑器,调查这个特定的向量副本是否是故意的……结果不是。

知道在哪里画线,要比画这条线,难一万倍,价值则不止一万倍。

强化学习(RL)能解决这个“知道在哪里画线”的问题吗?

看上去,这正是 RL 的擅长之处:在复杂环境中通过试错学习最优策略。理论上,我们可以构建一个以性能提升为奖励信号的 RL 系统,让它在代码库中探索可能的优化点。

但现实中的挑战在于:

  • 首先,状态空间过于庞大。即使是中等规模的系统,可能的代码修改组合也是天文数字。Meta 的广告系统代码库可能有数百万行,从中找出一个关键的 & 符号位置,比下围棋的搜索空间还要大得多。
  • 其次,奖励稀疏且延迟。每次代码修改都需要完整编译、部署和性能测试,这个周期可能长达数小时甚至数天。而 RL 算法在奖励稀疏的环境中表现不佳。
  • 更重要的是安全边界问题。在生产系统中随机试错的代价极高。一个错误的修改可能导致系统崩溃或数据损坏,这在 AlphaGo 下错一步棋的世界里是无法想象的。

所以,RL 可能在受控环境中提升“知道在哪里画线”的能力,但距离解决实际生产系统中的优化问题,还有一段路。

知道和做到

知道和能做到之间存在巨大鸿沟。

看看今天的 AI 系统生成的结果:冗长、啰嗦,就像总是用“一方面,另一方面”找平衡的专家。它们可以解释 C++ 中 auto 关键字的所有用法,却很难在真实的复杂中识别出它带来的性能问题。

更常见的例子:用 Cursor 改 bug,一个小问题,Cursor Agent 能吭哧吭哧连续跑上好几分钟,直到把工具使用(tool use)的调用上限用完;看看修改的文件,很可能有两只手的手指头都数不完。对于我这种半路出家的 vibe coder,根本不敢点 Accept 接受修改。

随着系统复杂度上升,小问题会累积成大问题,在高抽象层级上的设计缺陷会在低层级上衍生出灾难。如果只能看到问题的局部,往往是越改越错,所谓“屎山”就是这么来的。

问题不在于知识,而在于环境感知与判断力。而在这些能力上,量变不一定能带来质变。

晚点最近的一篇文章描写了字节在 AI 面临的数据困境:

用户数量增长带来的新数据也有限。抖音内,只要用户还在上下刷,就会产生一组组数据供推荐算法优化;但豆包生成一段回复,只有极糟时,用户才有动力多点下按钮反馈。

能收集来数据,也不保证它们能让底层模型更聪明。“多数用户的问题高度重合,又没什么深度,没办法提高模型能力。” 上述前字节 AI 员工说。“比如代码方向,字节就会在内部找程序员写案例。”

移动互联网的经验在 AI 上不可复制,这似乎已经是个共识。“高频打低频”和用户规模构造的数据反馈在模型能力提升上失去了优势。“找程序员写案例”,这看起来很难规模化,但这些数据不可能在用户的简单点击中获得。

在前沿模型上竞争的 OpenAI 们,招募了成千上万的专业标注人员,包括程序员、法律专家和领域专家,针对核心推理能力收集高质量样本。从大众化数据转向精英化数据,与其让模型学习一百万个相似的问题,不如让它掌握一千个真正有挑战性的问题。

模型面临“奖励稀疏且延迟”的环境。在 Meta 这样的复杂系统中,一个优化的效果可能需要数天甚至数周才能完全评估。这不仅挑战了 RL 算法的基本假设,也让数据收集变得异常困难。如何构建能够模拟这种长期反馈的训练环境,成为了 AI 在系统优化领域面临的核心挑战。

安全边界问题更令人担忧:在实验室环境中,AI 可以自由探索、犯错和学习;但在生产系统中,一个错误的优化可能导致服务中断或数据损坏,造成数百万美元的损失。这种高风险环境与 AlphaGo 下错一步棋的世界有本质区别。

AI 需要的不仅是更多数据,更是更好的数据。不仅是更大的模型,更是能够在高风险、低反馈环境中安全决策的能力。

补丁与套壳

在《真正的 LLM Agent》中(原文: Actual LLM agents are coming. They will be trained)中,Pleias 创始人 Alexander Doria 强调:AI 智能体应依赖模型本身而非工作流,结合强化学习与推理能力,才能应对复杂任务。

模型即产品。

这篇文章也提到了 OpenAI 的 Deep Research 和 Manus,并把他们做了对比。

关于 OpenAI 的 Deep Research:

关于 DeepResearch,很多人存在误解,这种误解随着大量仿制版本(开源和闭源)的出现,变得更严重了。实际上,OpenAI 并非简单地在 O3 模型外面套了层壳,而是从零开始训练了一个全新的模型。

关于 Manus:

最近被热炒的 Manus AI 属于典型的「工作流」。我整个周末的测试都在不断验证着这种系统的根本性局限,而这些局限早在 AutoGPT 时代就已经显现出来。

Doria 认同 Anthropic 对智能体的定义智能体能够动态地决定自己的执行流程和工具使用方式,自主掌控任务的完成过程。

这无意间给“套壳”反向下了一个定义:通过提示词预设工作流的应用,就是“套壳”应用,而不是“真正的智能体”。

More Intelligence, Less Structure——这句听上去和 Anthropic 的定义高度相似的话,实际上是 Manus 团队提出的。关于概念定义的争论永远都不会休止,工作流和“套壳”,更可能是阶段性的过渡形态,它们确实打开了 AI 应用的想象空间。

但是,今天的模型,智能并不可靠,幻觉带来谬误,RL 带来短视,缺少足够优质的上下文带来知识和记忆的缺失。Sam Altman 说,(模型出现幻觉时)没关系,你可以再点一次——但很多关键任务中,没有再试一次的机会。

McKinsey 访谈了一千多位企业相关人士,发现企业对 AI 不准确性的担忧正在逐年上升,而效能领先的企业往往更加关注 AI 风险,越来越多的企业采取行动以对抗这些负面风险。

一个形象的比喻就是:给 AI 打补丁。

AI 模型或许永远都存在这样那样的问题,需要“套壳”来让它更易用,需要“补丁”来让它更可靠。

“补丁”将以什么形式出现?有三个可能的方向:

  • 专业判断增强工具。Meta 的工程师需要 Strobelight 这样的工具来发现性能异常点。未来的 AI 系统同样需要专门的工具来增强人类在关键决策点上的判断力。在代码分析中,这可能是能够理解系统全局行为并突出潜在优化点的辅助系统;在风险评估中,这可能是能够模拟各种边缘情况的预测工具。
  • 结构化验证流程。正如 Sam Altman 所说,我们需要“让模型仅在对用户有利时产生幻觉”。这不是靠运气,而是靠精心设计的验证流程。在系统优化中,这意味着分阶段部署和回滚机制;在决策支持中,这意味着多渠道的事实核查和边界测试。
  • 最佳人机分工模式。Meta 的案例证明,即使在 AI 时代,核心优化仍需要人类的直觉和责任感。未来的 AI 系统不是要取代这种直觉,而是放大它。这意味着在不同场景下,设计不同的人机协作模式:在创意领域给予 AI 更多自由,在关键系统中保持人类决策者的最终控制权。

这三个维度共同构成了 AI 时代必不可少的“补丁”——弥补 AI 在判断力、可靠性和安全性上的固有缺陷。

价值往往产生在边界上。模型存在局限,“套壳”和“补丁”就各有它们的价值:它们不仅解决了模型短期难以克服的局限,更可能是在长期中与模型共舞的机会。

本周的 Links + Notes 推荐了 6 篇文章。

我写作的顺序是先写 Links + Notes,从过去一周的积攒的阅读中寻找灵感和线索,然后写开篇的文章。对于大部分读者而言,只读开篇的几千字已经是很大的阅读量了,但还是有少部分信息吞吐量比较大的读者,对 Links + Notes 情有独钟。

现在 AI 的很多公众号都在搬运海外的热门文章,我尽量避开那些最显然的来源,因为很可能大家已经在其它地方读过了。但有些文章的确比较重要,我还是会放进来,也多花一点时间,把其中重要的部分摘录进来,加上我的批注。

这很像是 learn in public 的行为展示:把这些文章看作是开篇文章的延展阅读,或是独立的灵感来源,都很恰当。

本周推荐的文章包括:

  • Nvidia GTC:AI 工厂的帕累托前沿 - 黄仁勋在 GTC 大会上提出了 "AI 工厂 " 的概念,用经济学视角解释了为什么在规模(吞吐量)和效率(延迟)之间的权衡中,Nvidia 的解决方案最具竞争力。
  • OpenAI 的消费科技转向 - Sam Altman 在接受采访时表示,五年后一个拥有 10 亿日活的目标网站比最先进的模型更有价值,揭示了 OpenAI 正在向消费科技公司转型。
  • McKinsey:企业 AI 采用现状 - 全球企业 AI 采用率从 50% 跃升至 72%,但企业对 AI 的不准确性和 IP 侵权等风险的担忧也在上升。
  • 颠覆的不同形态 - Benedict Evans 通过对比 Uber 和 Airbnb 的案例,展示了科技创新带来的颠覆程度可能大不相同。
  • MrBeast:从创作者到商业帝国 - YouTube 第一网红的商业版图扩张:其巧克力品牌 Feastables 年收入达 2.5 亿美元,超过视频业务。
  • 卡尼曼的最后选择 - 诺贝尔经济学奖得主、《思考,快与慢》作者丹尼尔·卡尼曼选择安乐死的背后故事,展现了这位决策理论大师的最后一个重要决定。