当 Web 再次面对死亡

这次可能是真的。

当 Web 再次面对死亡
Photo by Brett Jordan / Unsplash

Google 在其年度发布会上揭开了 SGE(Search Generative experience)的面纱:利用 LLM 生成来自不同网页来源的摘要信息,占据了搜索结果页上的视觉焦点,用户无需离开这个页面,甚至无需滚动,就可以获得全部答案。

Google SGE UI 202405.png

几乎是同一时间,Reddit 宣布与 OpenAI 达成了通过实时 API 进行数据开放的合作,对于 UGC(或者说是 Web 2.0)而言,这是一个重大的决定。作为最大的 UGC 平台之一,Reddit 为 OpenAI 训练模型提供了丰富的资源。后者拥有人类历史上最快达到 1 亿用户量的科技产品。

故事的另一个主角是 OpenAI,其最新发布的 GPT-4o 大幅提升了语音的可用性和重要性,令传统的 GUI(图形用户界面)显得有些空洞多余。很多人仅凭简单的 PS 就可以设计出颇具未来感的智能硬件 原型

HomeGPT.png

Google 和 Reddit 是构成互联网(后面会和 Web 一词混用)生态的两类物种,前者构建索引和通路,后者在前者提供的骨架上填充内容。在 Web 发展的历程中,也被认为 Web 1.0 和 2.0 的两代。Web 并没有等来 3.0 的普及式繁荣,而是由 AI 的领头人 OpenAI 扮演了破坏者的角色,迫使 Google 自我颠覆,Reddit 主动合作。

互联网是人类发明的最重要的信息获取(information retrieval)工具,现在,它可能会被在内部生长出的巨物 AI 所替代。

破坏

互联网最标志性的超链接正在被 Google 的搜索生成体验(SGE)逐步破坏。不同于其传统的聚合多种网络资源链接的方式,SGE 利用搜索结果中的网页数据来生成主要搜索结果。这一转变不仅重新定义了用户与搜索引擎的互动方式,也表明谷歌为保持其主导地位采取了更为激进的策略。

Gerrit De Vynck 和 Cat Zakrzewski 报道,技术研究公司 Gartner预测 称,到 2026 年,搜索引擎带来的网络流量将减少 25%。SEO 咨询公司 Siege Media CEO Ross Hudgens 估计某些出版商的流量将至少减少 10% 到 20%。为约 5,000 个网站(包括 Easy Family Recipes)提供数字媒体和广告服务的 Raptive 公司估计,搜索变更可能会导致创作者损失约 20 亿美元,有些网站的流量可能减少三分之二。Raptive 通过分析成千上万个关键词并对比传统谷歌搜索与 SGE 的测试版,得出了这些数据。

Google 比其他公司更有理由对此保持谨慎:它为许多即将失去流量的网页提供广告。然而,由于谷歌在数字广告市场上占据优势,它似乎押注自己能够度过这次转型,并通过其多种收入来源来平衡任何波动。在公开评论中,Google CEO Sundar Pichai 强调了 AI 增强搜索的力量,同时淡化了对公司当前支持的生态系统可能造成的任何破坏。他在接受 CNBC 的 Deirdre Bosa 采访时表示,他不认为 AI 概要会扰乱公司的业务或出版商的业务。“总体来看,我们发现(AI)既增加了整体使用量,而且在按年比较时,我们已经能够增加对生态系统的流量,”Pichai 说道。“我们优先考虑那些能够生成流量的方法,所以我们正努力实现这一目标。”

Google 的这些估计可能过度乐观。Facebook 曾经对其新闻推送算法进行了修改,旨在优先推送来自亲朋好友的内容,而非内容提供商(比如 Buzzfeed)的内容,这对后者产生了重大影响。这些变化导致许多媒体的推荐流量和视频观看量减少,对于很多内容提供商而言,这种变化几乎是灭顶之灾。

Perplexity 的创始人 / CEO 在 Twitter 这样 评论

我看了 Verge 的 Nilay 对 Sundar 的采访。Nilay 问了他一个简单的问题:为什么当我输入“最佳 Chromebook”时,我们没有得到 AI 概述,而是得到了许多链接/广告?(Sundar 的)回答是“我们只在认为它有益时才触发它”。问题是它对用户还是广告商有益,以及谁的利益最终对 Google 更有益。很多人给我发消息说,像 JCal 或 Sacks 这样的人宣称,“我们完蛋了,对我们来说一切都完了。”现实是不同的。人们很快就会意识到,产品应该为用户提供单一的明确用途,并且在工作时不产生变化,也不用猜测会发生什么。这也适用于另一种方式:您不需要为每个已经惹恼用户的导航查询提供 AI 摘要。LLM 摘要、链接、答案框、小部件、图表、卡片、面板等之间存在一个最佳点 - 它到底是什么 - 目前尚不清楚 - 因此为什么这场竞赛还没有明显的赢家。

或许你应该去读一下这个采访的 全文(或者看 视频 / 听 播客)。Sundar Pichai 明确在回答中提到了 「Web 死亡」的字眼,但他予以了否认。但 Nilay 显然认为,Web 好不容易在移动互联网后形成的稳态正在被打破,而破坏者正是 AI。

生态的平衡往往非常微妙。搜索引擎或社交媒体把握着流量入口,也承担了流量分配的作用。几乎所有平台都会宣称自己会按照内容质量的好坏来分配流量——质量更多是由平台依据用户反馈数据得出的后验结论。在 SGE 之后的时代,流量分配不再必要,因为 Google 将在自己的页面上直接提供结果。对于内容提供商而言,流量以及随之而来的商业利益都无法得到保证。

以超链接和点击率构建的商业循环出现了裂痕,对互联网而言,这种挑战不仅仅是在商业层面的,更是在协议层面上出现了问题。

内容为王?

Reddit 宣称自己拥有超过 4 亿的 MAU,这个数字包括了大量从 Google 跳转过来的未登录用户。在这样的一个巨大流量漏斗中,这家曲折运营多年的在线社区公司在 2023 年成功完成了 IPO,并同时宣布了自己和 Google 签署的价值 6 亿美元的数据合作协议。

这个合作协议令很多人感到惊讶:为什么 Google 作为流量入口会愿意向内容平台付费以获取内容。实际上,这正是过去十几年来,互联网生态在持续发生着的潜移默化的变化。内容平台不断聚合内容提供者,从小型岛屿生长成连绵成片的大陆。Web 2.0 中引入的账号、互动、关系等概念成功的让这些平台更容易分辨质量好坏,并且具有网络粘性。它们中的一部分选择不向搜索引擎开放爬虫,最先打破了互联网的「互联」假设。Reddit 并不是内容平台中的领头羊,它与 Google 之间的博弈一定充满了曲折,但最终的结果是:Google 愿意付钱。

这可能是对「内容为王」这句话最好的注脚。

合作中有一个细节足够重要:内容合作的基础是 Data API。为了这个 API,Reddit 管理层决定向第三方开发者收取高昂的费用,这个做法几乎得罪了大半的活跃用户,但 Reddit 顶住了压力,现在我们知道,背后的动力是和 Google 以及 OpenAI 的合作。

API 不是超链接,它是一个单项的赋权关系。被授权者得到一个 API Key,可以在授权范围内以限定的方式获取限定的数据。超链接的极限就是服务器的承载能力,极端情况就是 DDOS,这是以 HTTP 协议为基础的互联网的理想主义,也是过去所有的 corporate network (via Chris Dixon: Read Write Own Building the Next Era of the Internet)在构建商业模式过程中不断修补和加固的地方。

read-write-own-corporate-network.png

前 Reddit CEO Yishan Wong 曾 谈到 UGC(用户生成内容)平台的「蒸发冷却效应」,这一现象是指随着平台用户规模的扩大,用户平均质量下降,高质量用户逐渐离开平台。这一现象是很多以高端用户起步的平台的困扰。现在,AI 可以作为一个「缓冲区」,将高质量内容创作者与低质量消费者分离——后者主要通过 AI 进行消费,而避免对前者的直接干扰。同时,平台可以通过与 AI 公司签署协议,对高质量的用户生成内容以 API 的形式进行货币化,用于训练 AI,同时补偿和激励原始创作者。这种方法使得平台能够保持一个紧密的高质量内容贡献者社区,避免了通常困扰 UGC 网站的「蒸发冷却」效应。

至于很多人担心的:一旦 AI 模型完成训练,数据就不再值钱,OpenAI 和 Google 也不再愿意在 Data API 上进行投入。持有这一观点的人可能没有正确解读 AI 模型 厂商之间以及它们与内容平台之间的竞合关系。目前来看,AI 模型之间的竞争正在变得更加激烈,训练工作丝毫没有减缓,主流厂商至少每年要推出一代新模型才能保证自身在主要指标上不落后,才有希望在模型的「保质期」内获得足够大的回报。每一代模型都需要更大量、更优质也更新的数据。相比与在算力和能源上的投入,数据投资规模相对较小。谁也不希望最后是因为数据的问题而浪费了数亿美元的资本支出,最终导致模型训练效果功亏一篑。

除了训练,还有推理。实时数据能够为推理提供上下文。无论是 Google 的 SGE、Perplexity 还是 ChatGPT 的 Web Search,AI 提供答案的基础都建立在抓取网页数据上。这些数据将从开放的网页抓取逐步转变为 Data API,重新建立 AI、内容平台与人类创作者之间的关联。

可以预见的是,这个巧妙的变现方法将不是 Reddit 的专利。纽约时报起诉 OpenAI 的案例最终很可能以另外一种路径达成和 Reddit 相似的结果。随着供需关系逐渐稳定,基于调用频次和效果的动态定价模式将逐渐形成。Token 将再一次被赋予价值意义,在 AI 的语境下,它会比在 crypto 语境下更具有现实使用价值。

隐忧

Reddit 因其活跃且多样的社区而闻名,但也存在大量的虚假信息和主观意见。使用这些数据训练 AI 可能会放大这些不准确性,导致输出的信息既可能误导人也可能提供有用的信息。批评者认为,依赖不可靠来源的 AI 模型有传播虚假信息的风险。想象一下,一个基于 r/investing 上推测性帖子提供理财建议的 AI,或根据 r/health 上未经证实的故事提供健康建议的 AI,结果显而易见:没有严格的筛选和验证机制,生成的内容的可靠性就存疑。

Reddit 与 AI 公司的合作也将用户隐私和数据使用的问题推到了前台。经常以匿名身份发帖的 Reddit 用户,分享信息时期望有一定的匿名性。未经明确同意就使用他们的数据来训练 AI 模型,带来了伦理和法律问题。为了保持用户信任,Reddit 必须采取透明的方式,清楚地阐明用户数据将如何被使用和货币化。实施强有力的数据匿名化技术,并为用户提供选择退出的选项是非常必要的。如果不解决这些问题,可能会引发反弹,侵蚀 Reddit 赖以生存的社区信任。

关于数据使用的讨论也不可避免地触及版权问题。GPT-4o 中的 Sky 语音被 指认 与 Scarlett Johansson 的声音高度相似,后者曾经为科幻电影 Her 配音,并且曝光 Sam Altman 曾经在产品发布的前两天还找她「重新考虑」是否授权成为 AI 语音的原型。而就在这个事件发生前几天,Sam Altman 还在 All-in 播客上 提到 的生成类似 Taylor Swift 风格的歌曲但未使用她的实际音乐的例子。

这种场景引发了更广泛的辩论:创作者是否应该控制由其风格启发的 AI 生成内容,或者他们是否应该得到一部分收入分成?音乐产业已经对流媒体服务保持警惕,现在又面临 AI 的挑战。Scarlett Johansson 或 Taylor Swift 是否应当禁止 AI 生成模仿其风格的歌曲,还是更实际地从中获得一部分收入?后者可能会达成和谐的平衡,确保创作者得到补偿,同时允许技术创新的蓬勃发展。这种模式可以扩展到其他创意领域,提供一个尊重艺术贡献并适应 AI 进化的框架。

在保护权利和数据真实性上,Data API 可以向区块链借鉴,权利和责任都将包含在 API 中,一旦数据的产权明晰,并能够追溯,那么无论它是以何种形式的 AI 展现在最终用户面前,都能够保证提供者和使用者的双边利益,那么平台的风险也就自然降低了。考虑到 AI 在众多 mission critical 领域的广泛应用,风险和争议需要被尽早纳入议事日程。

妥协

互联网是由相互链接起来的网页构成的。奇迹在于其无与伦比的开放性,这激发了无数人在这个简陋朴素的协议设定上持续建造,无私贡献。企业家们一边继承开放性的丰硕果实,一边也因自身商业模式而对原有协议进行修改——不可避免的结果是,互联网远不如其创立者设定的那样开放,但私有产权也的确为蓬勃旺盛的商业创造了先决条件。

从「软件吞噬一切」的叙事来看,可以认为搜索引擎、社交媒体都是基于互联网开发的软件。这些软件一方面以网页为供应原料来实现自身价值,另一方面也起到了构建互联网的作用——它们自身也是互联网的一部分。如果说这也是一种「吞噬」的话,它只能算是在互联网内部发生的局部变异。从外部看上去,互联网因为它们的出现变得更加强大了。

AI 出现之后,一切变得不同起来。

首先,它是一种终极软件,或者说它是其它软件的基础原型。你可以在 GPT 的基础上为各种用例开发出不同软件,这些软件由于 AI 的存在都变得功能更加强大,开发成本更加低廉。在 AI 出现之前,互联网扮演了类似的角色:你可以在互联网上为几乎所有用例开发新的软件,功能更加强大,成本更加低廉。

其次,AI 首先吞噬的就是互联网。互联网的开放生态为 AI 训练 LLM 提供了免费原料,是后者的存在基础。也正是由于 AI 和互联网的同位性,AI 在完成了 LLM 的初始训练后所呈现出的基本智慧已经开始对互联网产生初步替代。这一点已经引发了包括 Google、Reddit、纽约时报在内的所有互联网生态角色的警觉。

Data API 就是所有角色达成的阶段性妥协。这种妥协能维持多长时间难以估计,但我倾向于认为这可能是我们能拿到的最好的交易。过去十五年里,我们见识过移动应用如何摧毁了大量以桌面版网站为核心的企业。好在 Apps 并没有带走一切,网页仍然存在,物理形态上的巨大差别往往是物种生存的基础。

AI 没有具体形态,它的生成性意味着它可以用各种不同的形态出现在用户面前:它可以是简短的回答,也可以是展开详细阐述,更可以是图片、视频、歌曲或你去世多年的亲人的数字重生。多模态意味着基于形态的多样性也不复存在,网页和 Apps 都可能失去存在的理由,或者说都将被降维为数据结构,AI 将成为摆在所有人面前的通用界面。

这一转变将历经多年。实际上,这就是技术周期更迭的必然,技术的组合式进化必将让一部分技术退居幕后,成为新技术的输入。在这次更迭中,互联网特别是网页作为输入容器的作用将大大降低,数据的产权边界变得更为清晰,能够掌控数据输入的新界面蕴含着重大的价值。


机会(to Founders and Operators)

鉴于 newsletter 的读者中有越来越多 AI 方向的创业者或从业者,我也将在内容中包含行业趋势可能会产生的机会和影响。下面是一些可能出现的机会。

  • AI 驱动的内容创作工具:随着内容创建者适应 AI 生成的摘要,对有助于优化内容以供 AI 使用的工具的需求将不断增长。初创公司可以开发一套工具,帮助内容创建者构建内容、识别关键信息并确保与 AI 摘要算法兼容。这些工具可以作为订阅服务提供,也可以集成到现有的内容管理系统中。
  • 促进内容平台和人工智能公司之间的数据合作:初创公司可以将自己定位为内容平台和 AI 公司之间的中介,帮助建立数据合作伙伴关系并通过 API 管理数据共享的技术方面。这可能涉及开发标准化的 API 框架、处理数据匿名化和隐私问题,并确保内容创作者获得公平的收益。
  • 创建以用户为中心的数据管理平台:随着用户隐私和数据使用透明度的重要性日益增加,有机会开发一个平台,使用户能够在各种内容平台上控制他们的数据。初创公司可以构建一个集中式仪表板,用户可以在其中管理他们的数据共享偏好,监控他们的数据使用方式,并选择退出某些数据收集做法。
  • 探索尚未开发的细分市场中的 AI 生成内容:虽然 AI 生成内容正变得越来越普遍,但可能存在尚未充分发挥其潜力的特定细分市场或行业。初创公司可以识别这些尚未开发的机会,并专注于开发针对这些特定市场的 AI 驱动的内容生成工具。例如,您可以创建一个 AI 驱动的内容创建平台,用于电子商务产品描述、法律文件起草或细分行业报告。通过专注于特定领域,您的初创公司可以成为该领域的领导者并占领市场份额。