Notes on AI

追问：AI 将扮演何种角色？

容错率是大众采纳新技术的关键要素，网络效应是解决问题的良方。

Neo Zhang

Apr 6, 2024 — 14 min read

Photo by Branden Skeli / Unsplash

本文是《工具-社区-平台及三个追问》中的第三个追问。两篇文章连续阅读，效果更佳。

AIGC 曾经被普遍认为是 UGC 的替代。这种观点几乎是在 GPT 3.5 的时代就被喊出来了，但到了 GPT 5 即将面世的时候，还没有大规模的发生。

内容平台已经纷纷要求创作者对使用了 AI 辅助创作的内容进行主动声明，同时也会识别具有明显 AI 痕迹的内容。显然，「社区」们担心 AIGC 的入侵会降低自身内容的独特吸引力，尽管很多时候 AIGC 的平均质量可能比 UGC 的平均质量还要高一些，但应该低于 PGC——更令人担心的是 AIGC 可能搅乱了 UGC 向 PGC 奔赴的成长路径。

设想一种更极端的可能性：Hidecloud（张涛）在接受「42 章经」的播客访谈时讲到，推荐系统与 AIGC 的结合可能会产生全新的可能性，即根据用户画像的偏好，即时生成内容来满足需要。这个观点的前置假设是：推荐系统已经可以很好的完成用户画像刻画，但在 UGC + PGC 的环境下，内容供给无法在很细的颗粒度上充分满足用户需求。

在这种情况之下，AIGC 对人类创作进行了全替代。是否以及何时会出现这样的情况还很难预测，我们可以从最基本的情况开始思考发展路径。

AI 应用的发展路径

最基本的，我们从过去已经发生的事情开始。在一期王小川参与的播客访谈中，他反复讲到早年做搜狗输入法的例子，认为输入法本身也是一个文本预测模型，和今天的 GPT 有很多相似之处。不去深究技术原理上有多大的差异，只去看人是否在创作中采用更多的技术工具，或许「AI 辅助创作」这样的声明并没有太大的实际意义。AI 即将或者已经成为了大部分软件的标准组件，人类也并不需要区分自己的工作产出是否包含了 AI 的帮助。AI 作为辅助工具的历史已经发生，大部分用户都已经欣然接受，不需要任何假设。

社区提供了一种反馈机制，无论 UGC 还是 PGC，都会根据自己接收到的反馈信号行事。他们会根据自己在平台上看到的其它内容、自己接受到的互动、以及对平台一般认知来「生成」内容。这本身也是一种学习机制，只是产出效率较低（文本生成速度大概也就是每秒钟 1 token），平均质量上应该还不如很多 LLM，但不排除一小部分人类创作者具有更强的学习能力，能够产出更高质量的内容（PGC）。

当 UGC 还只是在自己创作的过程中加入一些 AI 辅助工具时，我们会看到一些创作者比其它人的效率更高。这里的典型场景就是在写作和研究的过程中，通过 AI 来提升效率。Notion 这样的产品显然得天独厚，而 Microsoft 一定是这类场景的制霸者，也很有眼光的抢占了 Copilot 这个意象极佳的名字。需要大量内容处理的场景并没有那么多，笔记、办公套件、浏览器、即时通讯和各种各样提供内容发布的社区或平台。

再进一步，我们可以把 Perplexity 这样的产品看作中间状态的产品：它先是通过搜索引擎的方式召回了最佳结果，然后再用模型对这些结果进行处理，在很短的时间内「生成」出一份内容。你不能说这是 AI 的创作，它依赖于人过去的内容输出，但又做了相当不错的加工，对于使用者来讲，这种加工整理的价值是不言而喻的。这种使用体验已经和 Hidecloud 所设想的那种按需生成很相近了。

Perplexity 的创始人在访谈中曾经讲过，产品体验的一个重要因素就是速度，特别是「首 token 延迟」。很大程度上，这是一个工程问题，需要精益求精的迭代优化。我们已经习惯了在 UI 上看着 AI 模拟打字的效果，这个输出的速度显然是比真人要快很多，但这是一个交互设计上的把戏，对于搜索引擎，我们肯定不会有如此耐心。但如果加上读取每张网页的时间，这种耐心似乎又是可以理解的。AI 生成回答的时间还是比我们自行做阅读理解要更快，一般人阅读的速度也就是每分钟几百个单词。这可以理解成是一个用 AIGC 来满足搜索需求的产品。

Suno AI 则可能是一个与 Hidecloud 设想的推荐场景更接近的例子。生成一首 2 分钟的音乐大概需要 10 秒钟，已经完全可以用来做流媒体播放。你说它缺乏真正的创意，那也不奇怪，但是谁又能说它的 trending 榜单和 Spotify 推荐的 Daily Mix 电台也区别不大呢？已经开始有人发布 Suno AI 制作的歌单，Suno 目前还没有提供发现内容的机制，如果跨出这一步，它挑战的就不仅仅是音乐制作，而是像 Spotify 这样的音乐平台。

不难发现，这一切的推演实际上并没有脱离「工具-社区-平台」这个范式。它们都是围绕人获取信息或者是人与人之间的交流产生的。我们提到的几个例子目前基本上都还处于「工具」这个阶段。

AIGC 辅助创作：工具，其实可以理解成是更高级的「输入法」或 Photoshop。
Perplexity：工具，更高级的搜索引擎。
Suno：工具 / 社区，更便宜的 Spotify。

每一种工具都可能会沿着工具-社区-平台这个路径进化，但是不是一定需要沿着这个路线走呢？

这是谁说的？

社区或社交类产品的出现和繁荣，实际上是利用了人天生需要交流和表达的特点，然后把其中那些具有公共传播价值的部分沉淀下来，再次分发，就形成了更高的信息价值。这部分价值的边际成本极低，可以说是这个模型之所以在商业上可以成立的基础。这个时代的基础假设是，有价值的信息始终是稀缺的。无论是创造、筛选还是发现这些信息，都能创造出巨大的价值。

AI 可能会改变一些基础假设。Quora 和 Poe 的创始人（也是 OpenAI 的董事）Adam D'Angelo 在 a16z 的访谈（原文）上提到了如下几个点：

Quora 产品太多是基于出版模式构建的，这个模式本质上是建立在专家时间会很稀缺的假设上。而大语言模型的时间并不是同样的稀缺资源。
我们的目标是构建一个网络，让人类和 AI 能够共同分享知识。有时候人们会从 AI 那里获取知识，有时候 AI 又需要从人类那里学习知识，我们希望尽可能地成为这一交流的桥梁。
我个人认为，人类始终都会在其中扮演一定的角色。人们头脑中有很多互联网上或书本中都没有的知识，所以任何一个大模型都不可能拥有全部知识。
我预计未来会出现某种产品或用户体验，让大模型帮你筛选来源，准确引用专家或资料，而不是简单地概括所有内容，让你不知道信息到底来自哪里。

D'Angelo 关注到了一些基础假设的变化。比如说：专家时间不再稀缺，人和 AI 应该共享知识。其中没有发生变化的，也就是最后一点：信息来源的价值。

他在访谈最后提到，模型的幻觉可能是创业公司的机会，更多是从大公司（比如 Google）会更在意幻觉对品牌造成的影响这个角度来讲的。从另一个角度来看，信息获取这个基本任务从来都不能把「谁说的」和「说了什么」分开处理，很多时候，「谁说的」比「说了什么」更有价值，无论是从传播上，还是从驱使行动（call to action）上。社区/社交产品很大程度上是把「谁说的」还原到了「说了什么」的上下文中。

几乎所有的 AI 产品中都会提示用户注意：结果由 AI 生成，可能有错误，请自行甄别。这也是为什么我还不敢把 AI 产品推荐给我的家人适用的原因之一。Andrew Ng 在最近一次分享中讲道：

If you are looking forward to running GPT-5 / Claude 4 / Gemini 2.0 (zero-shot) on your application, you might already be able to get similar performance with agentic reasoning on an earlier model.

在他的 ChatGPT Prompt Engineering for Developers 入门课程中，有这样一句话：

Reducing hallucinations: first find relevant information, then answer the question based on the relevant information.

这相当于是给模型提供了充分的上下文，而不是依靠 zero-shot 模型能力的提升来消除幻觉。这或许听上去不够 AGI，但可能离现实更近，也更少的引发人与机器之间的纷争——它并不是一针安慰剂，故意要描绘人机和谐相处的画面，而是工程可行性的判断。

容错率与网络构建

容错率是大众采纳新技术的关键要素。AI 的问题在于它太过于「中心化」了，一切的错误和后果，都会被指责为是 AI 的问题，如果这些责问都要落在一个品牌身上，那么公众对这个品牌的信任将很快崩溃。「去中心化」的优势在于它分散了风险，由个体承担各自的风险和责任，这时，个体也更愿意提供更多的上下文帮助模型消除幻觉；同时，这些信息如果传播出去，公众也至少会把一部分的关切放在个体身上，而不是全部都去指责 AI。

现在，知识这个词比以往更加频繁且显著的出现。它曾经被神化过，除去温饱不足的历史阶段，更多是因为传播和获取的技术。信息技术革命以来，每一代新技术都是一次知识的大转存和大分发。「工具-社区-平台」的路径在互联网上已经几乎走完了全程，AI 可能还在「工具」阶段，它可能也会经由一个类似「社区」的中间阶段，在商业模式尚不清晰、幻觉问题尚未解决的情况下，让人们愿意贡献自己的知识。

这种贡献会和过去的 UGC 有显著的不同。我们看到大模型的输出并不稳定，无论是 Prompt Engineering、Agent 还是 RAG，都是在用人类预先给定的规范来为 AI 划定执行的路径和边界。Andrew Ng 的话语既是建议，也是规劝，让我们回到一个依靠缝合大量小工程来为大模型打补丁的状态。在这种情形下，人类将以一种不同的方式来贡献自己的知识。

举一个例子，我一直在尝试如何把一篇长文总结成可以 tweet 的状态。从最一开始用简单的总结摘要型的 prompt，越写越长，我最近的版本中，会分步骤把文章的关键数据、名人所说的话、提到的公司动态等分别抽取出来，然后在后续的步骤中重新整合到一起。经过这样的步骤分解，产出的内容更接近能直接用的状态（但还需要大量修改）。事实上，我输出了一种内容创作的「算法」知识给 AI，当然，这个 prompt 也可以封装成 bot 提供给更多人用。

这里的「知识」从一般事实转变为了实践经验。在 Midjouney 的 Discord 服务器中，类似的分享层出不穷。而 Poe 试图构建的 Bot Store 也在朝向这个方向努力。但这些分享更像是早年计算机俱乐部里人们用磁盘拷贝程序代码，而和现代意义上的 UGC 社区相去甚远。

或许一种可能性是：人们会分享自己和 AI 的对话记录。比如，我已经开始希望用 Perplexity 类进行旅行规划。我会和 AI 对话几轮，类似于 5 days trip to Tokyo，它会给出一个初步的清单，这时候，我想让我的朋友来挑选一些选项，或者基于一些特定行程进行深入，制定出更多细节。

这样似乎还是只有两个人。要记住，从一个人独享到两个人分享是一大步，因为这就意味着内容开始有了公共分享的价值，只要没有太多隐私问题，就可以分享给更多人。或许我对日本旅行一无所知，但我的确贡献了很多规划和决策的视角。比如，我可能不想去那些出名的餐馆排几个小时的队才能吃上饭，或许有更多人和我一样，就可以安排一些味道不错，但不那么网红的计划。

也可以设想，在分享给更多人之后，人们也许会提供自己的视角，或者补充问题的答案。如同在一张地图上加入了更多的详细坐标，由于已经有了整体的知识脉络，这种补充相对容易，但却具有极高的边际价值。

AI 无法掌握所有的知识，它需要太多的输入，无论是传感器、语料库还是计算中心都可能无法满足它的饥渴。在脑机接口被大规模部署之前，可能会出现上面想象的这种让用户进行输入和分享的方式。构建网络效应，而非单纯依靠规模法则（scaling laws）。