Platform Thinking

01.27.2025: Deepseek 并非巧合

好技术,并不一定是好投资。

01.27.2025: Deepseek 并非巧合
Photo by Shaojie / Unsplash

1913 年,一场革命在底特律悄然展开。

当福特引入流水线生产后,T 型车的装配时间从 12 小时骤降至 1 小时 33 分钟,价格也从 850 美元降至 360 美元。这不仅仅是一次简单的降价促销,而是一场彻底的供给侧革命。这种效率的跃升,就像一把达摩克利斯之剑,悬在了 500 多家汽车制造商头顶。最终活下来的,只有那些及时跟进规模化生产的玩家:通用通过并购凯迪拉克、雪佛兰等品牌打造了全矩阵产品线,克莱斯勒则收购道奇完成扩张。到 1930 年代,“底特律三巨头”坐拥超过 80% 的市场份额,寡头格局就此确立。

一个世纪后的今天,AI 领域可能正在经历类似的转折点。

上周,一家名为 Deepseek 的中国创业公司发布了他们的最新模型 R1。这个消息原本不会引起太大关注,但一个细节让整个 AI 社区震动:只用了 2048 块显卡,就训练出了一个能与顶级模型相媲美的 Deepseek-V3 模型。更重要的是,他们选择了完全开源的路线,将代码、模型权重和训练日志全部公开。

几乎是同一时间,Trump 宣布了一项预算高达 5000 亿美元的 AGI 计划 Stargate Project。

多么巧合。

成本与效率革命

Deepseek 最引人注目的并不只是它的技术指标,而更多是它所面临的资源限制。在一个被 GPU 短缺和芯片禁运困扰的环境中,一家从未被计入中国“AI 六小龙”的量化基金公司,用最小的硬件配置和几十名年轻的博士生,完成了蛙跳式的技术突破。

业界展开了激烈讨论。

Yann LeCunJim Fan 等研究者把这样的突破归因于开放研究和开源生态:

Yann LeCun:那些把 DeepSeek 的成功解读为“”中国超越美国”的人完全理解错了。真正的故事是:开源模型正在超越专有模型。
Jim Fan:不管你喜欢与否,AI 的未来不会是被“安全委员会”控制的瓶中精灵。每个互联网用户都将能在他们的“烤面包机笔记本”上运行高阶模型。这是历史潮流,我们应该顺势而为,而不是逆流而上。

学术界和行业界的初步共识是:Deepseek 作为后来者,站在了巨人的肩膀上,开放的技术交流环境,包括论文、开源代码和各种正式或非正式的人才交流,为创新突破创造了条件。这种说法虽然对 Deepseek 自身的努力有些许低估,但放在生态整体上看,也没有什么错误。

而德国分析师 Holger Zschaepitz 的警告可能更值得关注:

DeepSeek 可能对美国股市构成最大威胁。当一家公司能在缺乏顶级芯片的情况下,以极低成本建立突破性的 AI 模型时,我们不得不重新思考:那些投入的数千亿美元资本支出,真的物有所值吗?

这个问题戳中了要害。

Deepseek R1 的训练成本没有被公开,但仅从 API 定价来看,R1 百万 tokens 输出价格为 16 元人民币,大概 2 美元多一点,而 OpenAI o1 则为 60 美元,前者仅为后者的 1/30。

关于 Deepseek 的成本分析,可以参考 Nathan Lambert 在 Interconnects 上发表的 DeepSeek V3 and the actual cost of training frontier AI models 一文。这篇文章对广为引用的“600 万美元”的 Deepseek-V3 训练成本提出了基于数据支撑的估算和质疑。Lambert 在文章中按照 H800 的单位成本和 V3 的预训练阶段的 GPU 小时数进行了估算,得到了 557.6 万美元的成本数据。

estimated training cost of deepseek v3.png

同时,Lambert 也指出,不能仅仅考虑训练一个模型的直接成本,而是应该考虑相关的间接成本,包含 GPU 购买或租赁成本、人员成本、能源费用等。林林总总加起来,Lambert 认为 Deepseek 的年运营成本应该不低于 5 亿美元。

对于任何一家中国的 AI 公司而言,这都不是一个小数字。但如果是和类似 OpenAI 这样的公司相比,这个数字确实可以和 API 价格的数量级差异相互对应。

杰文斯、福特与外部性

1865 年,英国经济学家威廉·斯坦利·杰文斯发现了一个令人困惑的现象:瓦特改良的蒸汽机将煤炭使用效率提高了 3-4 倍,按理说应该减少煤炭消耗,但事实恰恰相反 —— 英国的煤炭总消耗在随后的几十年里暴增了近十倍。这个看似违反直觉的现象后来被称为“杰文斯悖论”:技术效率的提升往往导致资源使用的增加,而非减少。

为什么会这样?因为更高效的蒸汽机降低了使用成本,让更多工厂开始采用蒸汽动力。效率提升→成本下降→应用场景扩大→总需求激增,这个循环在之后的每次技术革命中都会重演。

蒸汽机是工业革命的开端,此后又出现了效率更高的内燃机,也开启了汽车工业的时代。

20 世纪初期,福特的流水线让汽车制造效率提升了数倍,Model T 的价格从 850 美元降到 360 美元。结果呢?不是节省了资源,而是带来了前所未有的石油消耗。

70 年代,又碰上了石油危机。以丰田为代表的日本汽车厂商带来了能耗效率更高、售价更低的车型,到 1980 年,日系厂商拿下了 21% 的市场份额,而在 1976 年,这个数字仅为 9%。日本车高速增长的代价是:从 1978 年到 1982 年,福特销量下降了 47%,克莱斯勒销量下降了 27%。

这不是一个零和博弈。尽管美国汽车销量在 80 年代后至今仅保持温和增长(从 1980 年到 2019 年,CAGR 仅有 1.37%),但每年汽车行驶里程却稳定增长(参考:美国能源部数据),从 1971 年的每年 1 万亿英里多一点,到现在基本稳定的超过 3 万亿英里。

annual vehicle miles traveled US.png

成本和效率革命带来了车轮滚滚,但汽车行业却没能提供很好的资本回报。

巴菲特对汽车业的评价一针见血:“到了 90 年代,在经历了永不停歇的企业大屠杀之后,我们只剩下三家美国汽车公司 —— 它们本身对投资者来说并不是什么好事。这是一个对美国产生巨大影响的行业,同时也对投资者产生了巨大影响,尽管不是预期中的那种影响......”

看看福特汽车的股价走势:40 年来,其投资回报率仅为 3.3%,远低于标普 500 的 16%。

Ford 1985-2025 Stock Price.png

从杰文斯悖论,到福特的流水线,再到底特律成为锈带,为什么未能带来优秀的资本回报?

我分析下来,有几个原因:

第一,行业技术迭代周期快于资本支出的回报周期,造成前期的重资本投入还未取得充分回报,就已经过时,需要加速折旧摊销。
第二,汽车行业对能源的依赖性大,无论是 70 年代的原油危机,还是 80 年代日本的小型车,还是最近的电动车,都极大的挑战了行业在位者。
第三,企业创造价值存在很大的外部性,体现为两点:首先,后来者容易学习到领先者的工艺、流程、方法,并进行成本效率改进,带来更激烈的竞争。其次,汽车带来的经济价值存在很强的额外溢性,比如:麦当劳这样的连锁餐饮和沃尔玛这样的零售业态,都得益于汽车行业的发展,但这些价值无法被汽车行业自身捕获。

这些特点,看起来是历史,实际上在每一轮技术周期中都存在。

戳破泡沫的前奏

关于 Deepseek 的另一种猜测是它的发布时机:正好卡在 Trump 上任的这几天里,从华盛顿到华尔街再到旧金山,美国举国上下正处在喜迎“黄金时代”到来的欢愉中。

Stargate Project 是这种欢愉的集中体现。

这个由 OpenAI, Oracle, SoftBank, and MGX 联合发起的计划宣布将在未来四年投入 5000 亿美元,规模远超曼哈顿计划(23 亿美元)和阿波罗计划(250 亿美元)的历史投入。有趣的是,在沸沸扬扬的讨论中,几乎没有任何争议是关于这个 5000 亿的预算规模以及钱要花到何处去的,而更多质疑指向了 Sam Altman 和孙正义到底有没有这么多钱投进去。

的确,考虑到 M7 在过去两年中动辄数百亿美元的资本支出,这个“举国项目”放个 5000 亿的预算,并不算太夸张。更何况,Stargate Project 被比作 1980 年代美国的“星球大战计划”,通过夸大技术愿景来施加战略压力。(说到这个,Apple TV+ 最近有部有趣的电影《Fly Me to the Moon》,讲述了 NASA 如何为登月计划做营销,颇具讽刺意味。)

这个计划公布之后,美股一片大涨,从半导体到电力配套。金融数据平台 Quartr 还发布了一张与之相关联的产业上下游的图,方便投资者按图索骥。

Pasted image 20250126102859.png

Nvidia 是一支在过去两年里几乎怎么买都不会错的股票,但自从 2024 年 9 月以来,Nvidia 股价开始徘徊不前,振幅逐渐扩大,每一次分歧,都有更多人的站队,一旦力量的平衡被打破,就可能成为崩溃的开端。华尔街见闻的一篇 短文 捕捉到了这个信号:在主流报道和社交媒体的多重发酵后,市场开始意识到 Deepseek 搅动的可能不仅仅是 AI 研究的方向,也可能会成为戳破泡沫的前奏。

判断一个行业是否存在泡沫,最终要回到一个简单的问题:用户愿意为最终经济价值支付多少钱?

这个问题在 AI 行业特别关键。Nvidia 一张显卡卖一万美金,评价这个价格是否合理,不是看 Microsoft 和 Meta 愿意为它付多少钱,而在于这些算力在最终客户手里能创造多少经济价值。

在评估这个经济价值时,我们常常被模型能力的上限所吸引——解决数学奥赛题目、挑战 AGI 的极限。但在实际应用中,基础场景的表现可能更重要:就像 GPT-4 在内容生成和客服等领域展现出的价值,虽然偶尔会犯错,但平均表现和下限在稳步提升。用风险投资人 Nat Friedman 的话说,我们在过去两年看到的是:可靠性这个“下限”在逐渐提高,而成本则呈现数量级式的下跌。

Deepseek 的出现揭示了 AI 行业的另一个关键特性:模型研发具有很强的外部性。特别是在蒸馏与合成数据等技术存在的情况下,后来者的追赶和学习效应异常强劲。这种内卷加外卷的结果,就是模型能力变好,而成本快速下降的原因,在这个过程中,行业利润被快速挤出,没有人能从自己创造的经济价值中分到一勺羹。

AGI 是支撑千亿美元投入的信仰。这个信仰也支撑着市场期待从成百上千亿美元得到长期回报,并支持对模型能力“上限”的追逐。但 o3 的单次推理成本还在几千美元的水平上,无法大规模使用,也就很难兑现成本——这里并不需要如很多行业评论分析的,需要区分预训练还是推理成本,关键在于去哪里寻找经济价值达到几千美元的任务。

这种以技术驱动的叙事很考验市场耐心,等久了,人总会不耐烦的。

更容易理解的故事,就是成本下降。推理成本每年都会下降一个数量级,Deepseek 可能只是让这个下降来临得更早了一些。

当模型以更低成本通过提高“下限”来解决实际问题时,算力需求的分布可能会发生根本性改变。有研究估算,在 AGI 时代需要 3300 万个 H100 GPU 同时运行(见推荐阅读 Links + Notes 中的 What would a world with AGI look like? 一文的估算,而目前 Nvidia 年产量仅为 150-200 万个。这个天文数字般的差距,既可以理解为巨大的供给短缺,也可能暗示我们忽视了某些能带来数量级改变的因素。

我丝毫不怀疑 AI 将创造巨大的经济价值,但这些价值将可能以全然不同的结构分布。

结语:R1 之后

如果通往 AGI 的道路比预期更漫长,如果市场对技术进展失去耐心,我们可能会看到第一波泡沫的破裂。但我绝非唱衰者:周期总是三步向前,两步向后,短期来看,高资本支出和高估值令人担忧,而长期来看,进步总是曲折向前:技术终会扩散,未来终是分布不均。

当一个行业进入效率驱动的扩张期,竞争加剧和价格战往往会侵蚀掉效率提升带来的收益。资本支出自身并不能构成护城河,技术也难以在长期中形成垄断。这是最简单的道理,也是人类会反复犯的错误。当效率革命粉碎了技术垄断的幻想,当创新使得昨日的巨额投资在今天贬值,我们或许会重新理解巴菲特在谈到汽车业时的那句警示:有时候,一个行业对世界的影响越大,对投资者的伤害可能就越深。

我最近在读一本美股的历史的书 Bull!: A History of Boom and Bust, 1982-2004,书名中的叹号不是笔误,而是作者出色的情绪传递。80 年代是全球化真正的开端,美国本土的制造业就是在这个时候逐渐让位给科技业和金融业的。Alan Greenspan、Bill Clinton、Mary Meeker 这些名字逐一登场,连续 20 次降息、电信法案、长达 300 页的互联网行业报告,如梦如幻的时代就此展开。

牛市并非一蹴而就,而是经历多个阶段累积势能,泡沫和崩盘交替发生,落到个体身上,很难用一出戏、一场梦来比喻?

无论是标普 500 还是 NASDAQ 100,都一再刷新历史新高,流动性仍然旺盛,资本市场的吹哨人不断放出警告,而无人应答。当 Stargate 和 R1 同时出现的时候,这怎么会是巧合?

这是历史在托梦。


你可能已经发现,1 月份的几篇更新中,我在开篇的文字中投入的精力更多了。这部分是因为我希望在 2025 年在写作上多花一点时间,写出更多的好的“作品”,另外也因为 1 月份的确有很多值得写的话题。

而每周更新中的传统项目:Links + Notes,也就是阅读推荐,也是过去几年读者最喜欢的内容。大部分时间里,我会从我每周的阅读中遴选 5 篇文章,加上引用和我的解读,作为每周更新的主要部分。开篇文章更多是一个导读,或是一些随记。

现在看来,这个重心发生了不小的迁移。

这是春节前最后一篇更新。我选了 5 篇文章,篇幅上第一篇很长,第 2-3 篇中等,第 4-5 篇比较短。前 3 篇都是围绕 AI 的,信息量足够多,但估计大部分人可能没有心情在假期前阅读枯燥的长文,这里做个预览,请通过邮件订阅的方式获取这些内容(预计还有几千字):

  • Ben Thompson 与 Daniel Gross & Nat Friedman 的访谈:探讨了 AI 技术扩散、泡沫经济和基础设施建设的关系,指出虽然泡沫可能带来投资损失,但也会创造重要的公共基础设施,就像早期互联网时代一样。
  • AGI 世界展望文章:通过详实的数据分析预测了 AGI 的发展前景,指出到 2030 年数据中心将消耗美国 12% 的电力,需要全球半导体和能源行业的重新布局。
  • Benedict Evans 关于 AI 模型的思考:探讨了人们对 AI 和传统计算机不同的期待,提出了一个关键问题:我们是否应该像对待人类一样,而不是像对待传统计算机那样来看待 AI 的错误。
  • 王川对投资机会成本的思考:指出许多投资者和从业者缺乏长期思维,过分关注短期比较和业绩压力,而没有耐心等待更好的机会。
  • “评论尸”的职场回顾:分享了其十年职场经历的感悟,强调了在现代社会中,个人与公司的关系应该是阶段性的,重要的是在每个阶段都有所收获并能顺利过渡。

春节期间,我可能还会做一次发布,预计在假期结束的时候。

预祝大家春节愉快!