界面的机会
在界面上找 AI 的产品机会:文本编辑器可能会发生哪些变化?
Memo
Scott Belsky 在 The Interface Layer: Where Design Commoditizes Tech [1] 中写道:
看看「界面层」的力量,它不仅仅是关于伟大的设计,它还关乎使生活更轻松的操作的集成以及底层服务的商品化。它不仅仅是一个层面,而是一种由设计师而不是有线电视高管、科技巨头和物流策划者主导的经济转变。这是一种建立在广泛开放且竞争激烈的服务生态系统之上的“封闭”用户体验。
Belsky 的文章发表于 10 年前,当时他创办的设计师社区 Behance 刚刚被 Adobe 收购一年多,此文颇有为设计师摇旗呐喊的意味。实际上,并非如文章标题写得那样是 Design Commoditizes Tech,而是 Tech 层面上的竞争 commoditize 了自己,给了 Design 更大的施展空间。
新技术带来的可能性永远都有待发掘,但重要的问题是在哪里挖掘。在基础模型已经进入军备竞赛阶段的时候,界面层(Interface Layer)变得越发重要,因为它在用户和技术提供者之间进行了封装,隔绝了底层技术在竞争过程中产生的微不足道的变化,而向用户提供了更多的确定性,而这些确定性又变成了使用惯性、肌肉记忆和品牌忠诚,成为可以长期积累的优势。
Token Share 与界面
我最近经常想到一个概念 Token Share,有时候可能用界面来思考更容易理解:
- 用户每天使用哪些界面?
- 在这些界面中发送和接收的 token 数量有多少?总数有多少?
- 每一个界面的 token 数量在总数的占比有多少?
行业中很多讨论还集中在 token 成本如何下降上——这当然非常重要,但它已经是共识,剩下的更多是预期如何以及何时兑现的问题。在成本下降的前提下,用量会大幅上升,人们会逐渐把潜意识中的成本要素忽略掉,更加大胆的使用 AI 来处理各种事情。这时候,新的问题有两个,一个是性能,另一个就是如何拿到更大的 token share(份额)。
一个有趣的类比是:将 token 份额与用户花费的屏幕时间份额(Screen Time Share)进行比较。很多操作系统都添加了统计为每个应用统计屏幕时长的功能。在我个人的 Mac 上,过去一周的 Top 5 应用的使用时长如下:
Arc 浏览器排名第一。Obsidian 和 Notion 分别在第二和第四的位置,加起来超过 Arc 的份额,Figma 占据第五,微信是唯一一个社交应用。这个数据多少也让我有点惊讶,但这只是 Mac 上的数据——在 iPhone 上情况完全不同,遗憾的是我发现我关闭了在手机上的屏幕时间统计功能,但我想,视频类应用应该拿到更大的份额。
Mac 代表了桌面端的生产力需求:浏览、创造和沟通是最主要的使用场景。这些应用每一个都蕴藏着大量的与 LLM 交互的需求。虽然用户总体的使用时长存在上限,但单位时间的效率随着 LLM 的广泛应用而提高。
我们注意到,Top 5 应用已经占据了超过 32 个小时中的 20 个,但如果考虑 token share 的话,分布一定不是这样的。比如我主要使用 LLM 的应用是 Raycast,它的屏幕时间仅有 50 分钟,但我想它的 token share 应该会超过 80%。如果你还不了解的话,它是一个 MacOS 上替换 Spotlight 功能的启动器,在任何界面按 Option + Space 就可以唤醒(这个快捷键可以自定义),然后就可以向 LLM 提出问题。对我而言,它就是一个「默认」界面。
Scott Belsky 在 2018 年又写了一篇文章,对「默认」这个概念做了进一步的阐释:
我没有意识到的是,这种界面会有多大的颠覆性。就像一场拍手游戏,手一个接一个地堆叠在一起,直到获胜的手放在最上面,颠覆性界面是通过消费者偏好或蛮力叠加在其他产品/服务之上,并控制最终用户的体验(从而控制决策)的界面。颠覆性界面之所以成功,是因为它们比它们所取代的更笨重、更复杂的系统更简单,并且提供了更好的用户体验。
即将出现的新媒介,即语音和增强现实,再加上人工智能的快速发展,将为我们节省更多时间。 它们将通过为每个需求提供默认答案(并消除选项)来彻底消除浏览 。乍一看,节省时间是一项巨大的好处。但其影响深远。 随着机器学习比我们更了解我们的生活和工作方式,我们不仅希望而且期望每个问题的最佳解决方案都是默认解决方案 。当界面达到自己的“奇点”版本时,当它们变得足够智能和精简以至于它们不再提供选择而只提供单一选项(并为我们执行)时,默认选项将成为每种产品和服务的终极奖励。
我怀疑 Belsky 在写作的时候是否能预见今天的技术局面,他提出的「默认」概念的确和我们今天看到的一些 AI 产品高度吻合:用户不再需要从多个搜索结果或多个页面窗口中反复跳转和选择,AI 擅长处理这些信息并巧妙的把它们整合成一段较短的回答,而这正是很多人需要的「默认」选择。
在这个意义上,界面的竞争已经重新启动了。如果用 token share 的概念去想,在今天的产品形态中,大概有这么几类界面有可能占据很大的份额:
- 浏览器:浏览器是一种元界面,或者说介于一般应用和操作系统之间。浏览器最初是为阅读网页内容设计的,而在 Web 2.0 时代,它被改造成了一种可读可写的界面,大大拓展了它的能力边界和使用场景。从 Chrome 开始,浏览器进入了追求极致性能的阶段,界面则追求极简主义,多余的功能都交给 extentions。Arc 等新秀则开始在界面上下功夫,赶上 AI 的春风后,应该逐渐会进一步打破浏览器 - 网页之间的次元壁。
- 聊天:这是很多人眼中 AI 的默认界面,但也有很多人(包括我在内)认为它只是一个初级形态。提示词以对话的形式来回,互动性强,容错性高,门槛更低,上限也是很高的。认为聊天只是初级形态的观点可能忽视了一个点,就是聊天更随意和灵活,很多标准化、结构化界面解决不了的问题,最终还是要回到聊天中来。一个不大恰当的比喻是聊天就像是按 0 转人工,虽然现代客服系统千方百计不让你转,但它还是很多人更想选择的。
- 语音 / 视频:语音可能是聊天的一种延伸。优点是门槛更低,不用占手,只用动嘴就可以;缺点是容错率低,说错了想改就很麻烦。另外就是接受语音信息的速率低,且是串行独占的,以及一些特定场景中(比如需要隐私、安静环境)不能用语音。视频从消费时长角度看,视频远远超过了其它的内容形态,但目前模型的多模态能力还有一些需要追赶的地方。
以上三种界面都有机会出现「默认界面」,而越是默认的界面,也越有可能被头部公司利用已有的渠道优势来强势抢占。还有一个界面,它也出现在我的屏幕时间份额 Top 5 中,在过去几十年中不断演变和涌现,它就是:编辑器。