Notes on AI

GPT-4o

GPT-4o 里的 o 同时满足了 3 个条件：更大的 token 用量，单位 token 成本下降，生成速度更快。

Neo Zhang

May 14, 2024 — 10 min read

GPT-4o 可能让一些人的期待落空了，从最开始期待一个挑战 Google 的 AI Search，到后来传言会发布几个不同版本的模型，替代掉 GPT 3.5，直到发布会后，大家看到的 GPT-4o。

O 代表 Omni，26 分钟的发布会，三个不用族裔的人类交叉讲述了语音、视觉、数学计算、翻译、代码等多种能力；在性能提升的同时，大幅降低了价格，也承诺面向用户免费开放。在发布会后，OpenAI 在社交媒体上放出了更多的切片剪辑，着重突出新模型的每一项能力。

Sam Altman 在个人 blog 上发表了一篇短文，摘录其中的两段：

First, a key part of our mission is to put very capable AI tools in the hands of people for free (or at a great price). I am very proud that we’ve made the best model in the world available for free in ChatGPT, without ads or anything like that.

首先，我们使命的一个关键部分是将非常强大的 AI 工具免费（或以极低的价格）交到人们手中。我非常自豪，我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西。

Second, the new voice (and video) mode is the best computer interface I’ve ever used. It feels like AI from the movies; and it’s still a bit surprising to me that it’s real. Getting to human-level response times and expressiveness turns out to be a big change.

其次，新的语音（和视频）模式是我用过的最好的计算机界面。感觉就像电影里的人工智能；对我来说，它的真实性还是有点令人惊讶。达到人类水平的响应时间和表现力是一个很大的变化。

信息非常清晰：1. 用户规模；2. 新（语音 + 视频）界面。

和半年前的 DevDay 不同，Altman 没有出现在这次发布会中，但他计算好了时间，赶在 Google I/O 开幕前发布——这可能也是很多人猜疑他可能会发布一个 AI 搜索产品的原因。这个发布会和半年前的 DevDay 不同，更明确的指向最终用户而非开发人员。DevDay 发布后，很多开发者抱怨自己的饭碗被抢了，这一次面向用户的发布，也有不少人不满。

对 OpenAI 的讨论，除了对于模型能力进化猜想，就一定会谈到其商业模式的问题。企业、开发者还是消费者？OpenAI 会让人感到有些左右互搏。

ChatGPT 是 OpenAI 的 toC 产品，GPT API 是 toB 或者 toD(eveloper) 的产品，发布会同时发布了两个产品，但比起 DevDay 来讲，肯定是更侧重于 toC，但可以说这两个发布会都是同时面向企业、开发者和消费者的。

OpenAI 在 2023 年的收入估计为 16 亿美元（The Information），一些分析认为去年的收入增长主要得益于 ChatGPT 在去年 Q4 的付费订阅用户增长，而这一波增长正是发生在 DevDay 发布会后（有人估计增加了 1 百万付费用户），更快的回复速度、多模态支持、以及第三方 GPT 支持，带来了付费用户的快速增长。

DevDay 发布会后，开发者的不满主要源于最初一波开发者主要在围绕简单的「套壳」应用做事，而 GPT Store 的出现大大降低了用户对于这些简单应用的依赖程度。但在 DevDay 后的半年中，GPT Store 并没有如预期一样持续爆发，同期，ChatGPT 的 MAU 数量也停滞不前。问题很简单，要想打造一个好的开发者生态，用户规模不可或缺。

于是，我们看到 OpenAI 释放了更多的免费功能，包括免注册使用 GPT 3.5，给 ChatGPT 独立域名、增加记忆和临时聊天功能等，都是为了扩大潜在用户规模。对于美国用户而言，每月 20 美元的订阅费用肯定不算贵（一顿饭的价格），关键在于能否利用好 OpenAI 在市场上的领先影响力来建立用户心智。要知道，Anthropic 也紧锣密鼓的开发了自己的 app，并开始付费推广。

同期，面向开发者的工作也并未停止：

2023 年 11 月，OpenAI 举办了 DevDay 活动，宣布了新的模型和开发者产品，包括具有 128K 上下文的 GPT-4 Turbo、函数调用更新、改进的指令跟踪和 JSON 模式以及可重现的输出和日志流。
2023 年 3 月，OpenAI 宣布改进了微调 API，并扩大了定制模型计划,允许用户使用自己的数据来微调 GPT 模型，创建高度个性化的应用。
2024 年 4 月，OpenAI 向公众开放了 GPT-4 API，并弃用了一些较旧的模型。

这些更新是在过去几个月基础模型不断演进的激烈竞争环境下产生的。Ahthropic Claude 3、Llama 3、Mistral AI 的紧追不舍，在性能、成本等多个方面分食市场。我曾经在湾区 AI 见闻（2024-04）中写过，新一轮的创投热潮会在未来 2-3 年中把 LLM 的应用场景渗透到各行各业，刚刚拿到风险投资的开发者们正在各个细分领域创造出更多对算力的需求——这些需求很可能不是通过 ChatGPT 这个官方产品来实现的。

我仍然对 Developer/ Enterprise 这个方向的 AI 应用看多，对于 Consumer 产品则倾向认为仍然会在 OpenAI 或其它大厂中诞生。

Scott Belsky（Adobe CPO）在 X 上写道：

remembering the mobile platform shift era when entire cohorts of startups kept trying to one-up each other with features until they were displaced annually upon every WWDC as new OS-level native apps and capabilities were announced. News and weather apps, geo tracking tools, etc… my takeaway: the speed of displacement is a signal of two likely outcomes: either a path to commoditization based on the sheer speed of innovation and displacement, or a platform-level innovation resulting in displacement.

回想移动平台转型时代，当时一大批初创公司一直在尝试在功能上超越对方，直到每年的 WWDC 上，随着新的操作系统级原生应用和功能的发布，它们都被取代。新闻和天气应用、地理跟踪工具等……我的结论是：取代的速度预示着两种可能的结果：要么基于创新和取代的绝对速度走上商品化之路，要么平台级创新导致取代。

随着产业周期的演进，创新机会将向曲线两端移动，最终呈现极化的「微笑曲线」，也就是说，要么站在价值链最上游，在核心技术 / 原材料等环节产生控制力，要么就是去价值链的最下游，离客户最近。随着技术周期逐渐向后演化，曾经的领先的技术也可能会被商品化，最终失去控制力和超额利润。

移动互联网时代，涌现了很多新的创业公司，但大厂仍然把握住了最大的 Consumer 产品机会，除此之外，无论是美国的 SaaS 还是中国的电商 / 本地生活，都是建立在深入的行业理解上的，而且在很多时候都需要深入到产业中去，用大量的资本投入来构建壁垒。

ChatGPT 或许不是一个好名字，但它对很多人来说几乎就是 AI 的代名词。GPT-4o 的升级让它更加接近于消费者，能够通过视觉和声音输入，解决更多生活中的问题。在发布会的 demo 中，OpenAI 刻意突出了其出色的情感能力，用不同的语调来讲故事，引得现场观众哈哈大笑。显然，这仍然是基于大量训练样本的概率推理，但的确让普通人感觉到真实的情感连接。拍照扫题，或者是在桌面端获取工作场景的文本和图片，都让 ChatGPT 离用户更近，更实用。更重要的是性能，对于普通用户而言，快是一种无法拒绝的诱惑（但用户调研从来不会告诉你这一点），在 demo 中，语音回复几乎是实时的，尽管 AI 面对了三个演示者的插话和打断。

另一个令人期待成真的传言，就是 Apple 和 OpenAI 的合作。这一定会大大加速 ChatGPT（可能在 iPhone 上不会叫这个名字）在普通用户中的渗透。Apple 拥有数十亿台终端设备用户，付费订阅用户超过 10 亿。这些数字意味着难以想象的用户规模激增。

然后再回到开发者生态上，只有在更大的用户量级上，GPT Store 才更有意义。它会吞噬掉更多小应用的机会，但它仍然难以深入整合到复杂的工作流中——那是企业开发者的机会，OpenAI 将和其它的公有云厂商（包括微软在内）分享这个市场。

下周，NVIDIA 将发布其 2024 年 Q1 财报。除了产能限制之外，我们已经在过去的财报季中反复听到各家大厂 CapEx 的激增，所有人都在为 AI 降临做军备竞赛，但超前投入的算力是否能够在更长的时间内被消费者和开发者们消化掉？或许我们正处在一个算力过度膨胀的时期，一切新发布都需要把这些算力吃掉。

GPT-4o 里的 o 同时满足了 3 个条件：

多模态带来的更大的 token 用量，包含更多使用场景，以及每次使用的 token 量变大两个要素。
单位 token 成本下降（vs GPT-4-Turbo 降低 50%）。
生成速度更快（vs. GPT-4-Turbo 提升一倍）。

新技术在最初的时候像是魔法，但随着时间推移，它一定会失去最初带给人的惊喜感，而逐渐回归到一些看起来乏味的「量变」上来。对我而言，这丝毫不令人意外，对于指数级级别的量变已经足够让人兴奋了，在短短几个月内就看到性价比如此剧烈的提升，不正是周期伊始才能感受到的澎湃吗？

GPT-4o

Neo Zhang

Read more

探索继续，2026 夏季再见

代码的 YouTube 时刻

SPECIAL ISSUE: 暂停与重启

05.19.25: ChatGPT 是个好名字

Platform Thinking

Read more

探索继续，2026 夏季再见

代码的 YouTube 时刻

SPECIAL ISSUE: 暂停与重启

05.19.25: ChatGPT 是个好名字