追问:AI 将扮演何种角色?

本文是《工具-社区-平台及三个追问》中的第三个追问。两篇文章连续阅读,效果更佳。

AIGC 曾经被普遍认为是 UGC 的替代。这种观点几乎是在 GPT 3.5 的时代就被喊出来了,但到了 GPT 5 即将面世的时候,还没有大规模的发生。

内容平台已经纷纷要求创作者对使用了 AI 辅助创作的内容进行主动声明,同时也会识别具有明显 AI 痕迹的内容。显然,「社区」们担心 AIGC 的入侵会降低自身内容的独特吸引力,尽管很多时候 AIGC 的平均质量可能比 UGC 的平均质量还要高一些,但应该低于 PGC——更令人担心的是 AIGC 可能搅乱了 UGC 向 PGC 奔赴的成长路径。

设想一种更极端的可能性:Hidecloud(张涛)在接受「42 章经」的播客访谈时讲到,推荐系统与 AIGC 的结合可能会产生全新的可能性,即根据用户画像的偏好,即时生成内容来满足需要。这个观点的前置假设是:推荐系统已经可以很好的完成用户画像刻画,但在 UGC + PGC 的环境下,内容供给无法在很细的颗粒度上充分满足用户需求。

在这种情况之下,AIGC 对人类创作进行了全替代。是否以及何时会出现这样的情况还很难预测,我们可以从最基本的情况开始思考发展路径。

AI 应用的发展路径

最基本的,我们从过去已经发生的事情开始。在一期王小川参与的播客访谈中,他反复讲到早年做搜狗输入法的例子,认为输入法本身也是一个文本预测模型,和今天的 GPT 有很多相似之处。不去深究技术原理上有多大的差异,只去看人是否在创作中采用更多的技术工具,或许「AI 辅助创作」这样的声明并没有太大的实际意义。AI 即将或者已经成为了大部分软件的标准组件,人类也并不需要区分自己的工作产出是否包含了 AI 的帮助。AI 作为辅助工具的历史已经发生,大部分用户都已经欣然接受,不需要任何假设。

社区提供了一种反馈机制,无论 UGC 还是 PGC,都会根据自己接收到的反馈信号行事。他们会根据自己在平台上看到的其它内容、自己接受到的互动、以及对平台一般认知来「生成」内容。这本身也是一种学习机制,只是产出效率较低(文本生成速度大概也就是每秒钟 1 token),平均质量上应该还不如很多 LLM,但不排除一小部分人类创作者具有更强的学习能力,能够产出更高质量的内容(PGC)。

当 UGC 还只是在自己创作的过程中加入一些 AI 辅助工具时,我们会看到一些创作者比其它人的效率更高。这里的典型场景就是在写作和研究的过程中,通过 AI 来提升效率。Notion 这样的产品显然得天独厚,而 Microsoft 一定是这类场景的制霸者,也很有眼光的抢占了 Copilot 这个意象极佳的名字。需要大量内容处理的场景并没有那么多,笔记、办公套件、浏览器、即时通讯和各种各样提供内容发布的社区或平台。

再进一步,我们可以把 Perplexity 这样的产品看作中间状态的产品:它先是通过搜索引擎的方式召回了最佳结果,然后再用模型对这些结果进行处理,在很短的时间内「生成」出一份内容。你不能说这是 AI 的创作,它依赖于人过去的内容输出,但又做了相当不错的加工,对于使用者来讲,这种加工整理的价值是不言而喻的。这种使用体验已经和 Hidecloud 所设想的那种按需生成很相近了。

Perplexity 的创始人在访谈中曾经讲过,产品体验的一个重要因素就是速度,特别是「首 token 延迟」。很大程度上,这是一个工程问题,需要精益求精的迭代优化。我们已经习惯了在 UI 上看着 AI 模拟打字的效果,这个输出的速度显然是比真人要快很多,但这是一个交互设计上的把戏,对于搜索引擎,我们肯定不会有如此耐心。但如果加上读取每张网页的时间,这种耐心似乎又是可以理解的。AI 生成回答的时间还是比我们自行做阅读理解要更快,一般人阅读的速度也就是每分钟几百个单词。这可以理解成是一个用 AIGC 来满足搜索需求的产品。

Suno AI 则可能是一个与 Hidecloud 设想的推荐场景更接近的例子。生成一首 2 分钟的音乐大概需要 10 秒钟,已经完全可以用来做流媒体播放。你说它缺乏真正的创意,那也不奇怪,但是谁又能说它的 trending 榜单和 Spotify 推荐的 Daily Mix 电台也区别不大呢?已经开始有人发布 Suno AI 制作的歌单,Suno 目前还没有提供发现内容的机制,如果跨出这一步,它挑战的就不仅仅是音乐制作,而是像 Spotify 这样的音乐平台。

不难发现,这一切的推演实际上并没有脱离「工具-社区-平台」这个范式。它们都是围绕人获取信息或者是人与人之间的交流产生的。我们提到的几个例子目前基本上都还处于「工具」这个阶段。

  • AIGC 辅助创作:工具,其实可以理解成是更高级的「输入法」或 Photoshop。
  • Perplexity:工具,更高级的搜索引擎。
  • Suno:工具 / 社区,更便宜的 Spotify。

每一种工具都可能会沿着工具-社区-平台这个路径进化,但是不是一定需要沿着这个路线走呢?

这是谁说的?

社区或社交类产品的出现和繁荣,实际上是利用了人天生需要交流和表达的特点,然后把其中那些具有公共传播价值的部分沉淀下来,再次分发,就形成了更高的信息价值。这部分价值的边际成本极低,可以说是这个模型之所以在商业上可以成立的基础。这个时代的基础假设是,有价值的信息始终是稀缺的。无论是创造、筛选还是发现这些信息,都能创造出巨大的价值。

AI 可能会改变一些基础假设。Quora 和 Poe 的创始人(也是 OpenAI 的董事)Adam D'Angelo 在 a16z 的访谈原文)上提到了如下几个点:

  • Quora 产品太多是基于出版模式构建的,这个模式本质上是建立在专家时间会很稀缺的假设上。而大语言模型的时间并不是同样的稀缺资源。
  • 我们的目标是构建一个网络,让人类和 AI 能够共同分享知识。有时候人们会从 AI 那里获取知识,有时候 AI 又需要从人类那里学习知识,我们希望尽可能地成为这一交流的桥梁。
  • 我个人认为,人类始终都会在其中扮演一定的角色。人们头脑中有很多互联网上或书本中都没有的知识,所以任何一个大模型都不可能拥有全部知识。
  • 我预计未来会出现某种产品或用户体验,让大模型帮你筛选来源,准确引用专家或资料,而不是简单地概括所有内容,让你不知道信息到底来自哪里。

D'Angelo 关注到了一些基础假设的变化。比如说:专家时间不再稀缺,人和 AI 应该共享知识。其中没有发生变化的,也就是最后一点:信息来源的价值。

他在访谈最后提到,模型的幻觉可能是创业公司的机会,更多是从大公司(比如 Google)会更在意幻觉对品牌造成的影响这个角度来讲的。从另一个角度来看,信息获取这个基本任务从来都不能把「谁说的」和「说了什么」分开处理,很多时候,「谁说的」比「说了什么」更有价值,无论是从传播上,还是从驱使行动(call to action)上。社区/社交产品很大程度上是把「谁说的」还原到了「说了什么」的上下文中。

几乎所有的 AI 产品中都会提示用户注意:结果由 AI 生成,可能有错误,请自行甄别。这也是为什么我还不敢把 AI 产品推荐给我的家人适用的原因之一。Andrew Ng 在最近一次分享中讲道:

If you are looking forward to running GPT-5 / Claude 4 / Gemini 2.0 (zero-shot) on your application, you might already be able to get similar performance with agentic reasoning on an earlier model.

在他的 ChatGPT Prompt Engineering for Developers 入门课程中,有这样一句话:

Reducing hallucinations: first find relevant information, then answer the question based on the relevant information.

这相当于是给模型提供了充分的上下文,而不是依靠 zero-shot 模型能力的提升来消除幻觉。这或许听上去不够 AGI,但可能离现实更近,也更少的引发人与机器之间的纷争——它并不是一针安慰剂,故意要描绘人机和谐相处的画面,而是工程可行性的判断。

容错率与网络构建

容错率是大众采纳新技术的关键要素。AI 的问题在于它太过于「中心化」了,一切的错误和后果,都会被指责为是 AI 的问题,如果这些责问都要落在一个品牌身上,那么公众对这个品牌的信任将很快崩溃。「去中心化」的优势在于它分散了风险,由个体承担各自的风险和责任,这时,个体也更愿意提供更多的上下文帮助模型消除幻觉;同时,这些信息如果传播出去,公众也至少会把一部分的关切放在个体身上,而不是全部都去指责 AI。

现在,知识这个词比以往更加频繁且显著的出现。它曾经被神化过,除去温饱不足的历史阶段,更多是因为传播和获取的技术。信息技术革命以来,每一代新技术都是一次知识的大转存和大分发。「工具-社区-平台」的路径在互联网上已经几乎走完了全程,AI 可能还在「工具」阶段,它可能也会经由一个类似「社区」的中间阶段,在商业模式尚不清晰、幻觉问题尚未解决的情况下,让人们愿意贡献自己的知识。

这种贡献会和过去的 UGC 有显著的不同。我们看到大模型的输出并不稳定,无论是 Prompt Engineering、Agent 还是 RAG,都是在用人类预先给定的规范来为 AI 划定执行的路径和边界。Andrew Ng 的话语既是建议,也是规劝,让我们回到一个依靠缝合大量小工程来为大模型打补丁的状态。在这种情形下,人类将以一种不同的方式来贡献自己的知识。

举一个例子,我一直在尝试如何把一篇长文总结成可以 tweet 的状态。从最一开始用简单的总结摘要型的 prompt,越写越长,我最近的版本中,会分步骤把文章的关键数据、名人所说的话、提到的公司动态等分别抽取出来,然后在后续的步骤中重新整合到一起。经过这样的步骤分解,产出的内容更接近能直接用的状态(但还需要大量修改)。事实上,我输出了一种内容创作的「算法」知识给 AI,当然,这个 prompt 也可以封装成 bot 提供给更多人用。

这里的「知识」从一般事实转变为了实践经验。在 Midjouney 的 Discord 服务器中,类似的分享层出不穷。而 Poe 试图构建的 Bot Store 也在朝向这个方向努力。但这些分享更像是早年计算机俱乐部里人们用磁盘拷贝程序代码,而和现代意义上的 UGC 社区相去甚远。

或许一种可能性是:人们会分享自己和 AI 的对话记录。比如,我已经开始希望用 Perplexity 类进行旅行规划。我会和 AI 对话几轮,类似于 5 days trip to Tokyo,它会给出一个初步的清单,这时候,我想让我的朋友来挑选一些选项,或者基于一些特定行程进行深入,制定出更多细节。

这样似乎还是只有两个人。要记住,从一个人独享到两个人分享是一大步,因为这就意味着内容开始有了公共分享的价值,只要没有太多隐私问题,就可以分享给更多人。或许我对日本旅行一无所知,但我的确贡献了很多规划和决策的视角。比如,我可能不想去那些出名的餐馆排几个小时的队才能吃上饭,或许有更多人和我一样,就可以安排一些味道不错,但不那么网红的计划。

也可以设想,在分享给更多人之后,人们也许会提供自己的视角,或者补充问题的答案。如同在一张地图上加入了更多的详细坐标,由于已经有了整体的知识脉络,这种补充相对容易,但却具有极高的边际价值。

AI 无法掌握所有的知识,它需要太多的输入,无论是传感器、语料库还是计算中心都可能无法满足它的饥渴。在脑机接口被大规模部署之前,可能会出现上面想象的这种让用户进行输入和分享的方式。构建网络效应,而非单纯依靠规模法则(scaling laws)。