智能体的崛起正在让命令行界面重新焕发生机,因为图形用户界面并不适合自主智能体使用,这可能对许多软件及其开发商造成冲击。
四十年前,所有成功的软件都拥有精心设计的图形界面,没有图形界面的产品毫无机会。优秀的图形界面减轻了操作软件时的认知负担,随着软件在菜单项和鼠标手势上趋于统一,这种负担急剧下降。
随着WIMPS(窗口、图标、菜单、指针)界面变得无处不在,学会使用一款软件几乎意味着你掌握了使用其他所有软件所需的技能。这在今天已成为不言而喻的事实,但在当时确实具有革命性意义。
然而好景不长。经典图形界面的清晰性逐渐演变为洛可可式的繁复装饰,出现了"功能区"和"浮动面板"等花哨元素,这些视觉糖果带来的却是令人困惑的体验。如今我们可能会花费数分钟寻找一个菜单选项,并问自己:"上次我看到它还在这里,是不是更新把它移走了?"
开发者们正在修改他们原本可靠的用户界面,用一些不太实用的东西来替换;苹果破坏其行业领先的FinalCut Pro的案例就是一个典型例子,这直接将市场拱手让给了Adobe。
过度或过于频繁地改变界面会让所有的认知负担重新回归。原本应该成为提高生产力的无形助手的软件反而成了负担:我因此从FCP转向了Premiere,再也没有回头。
自主智能体现在也正在经历同样的噩梦——尽管机器能够体验到的程度有限——当我们指示它们代表我们使用计算机时,它们必须努力学习糟糕的图形界面以便驱动它们。
智能体必须截取屏幕画面,将图像输入大语言模型,分析结果,改变执行我们要求的方法,并重复这个过程直到完成人类设定的任务。
糟糕的界面让这个过程变得缓慢且不必要地复杂:最初作为减轻人类负担的用户界面,最终却成为人类和智能体的累赘。
这一点在几乎所有人都使用的软件中表现得最为明显:微软的Office365Copilot(我说对了吗?他们改了很多次名字)。三年前,微软将其Copilot AI软件塞进了套件中的每一个应用,相信在不断向套件中添加应用而没有显著提价之后,它终于交付了下一代办公自动化,并找到了有意义地提高订阅成本的方法。
微软搞错了。这家软件巨头既来得太早又走错了方向,误解了人们使用AI的方式。雷德蒙德将助手放在了应用内部。实际上没有人在那里使用它们,因为它们除了本地上下文之外什么都没有。与世界隔绝的助手能做的事情很少——人们很快就学会了忽视它们。
相反,我们看到人们使用智能体——比如Openclaw、Nanoclaw等——来操作应用。智能体位于应用外部,将该应用作为其在协调解决问题时可以访问的众多工具之一。
要做到这一点,智能体需要一个比图形界面更容易操作的通用界面。
所以再次向命令行界面问好吧。
Unix极客和PowerShell高级用户会声称命令行界面从未真正消失——他们说得对,但他们在计算机使用人群中所占的比例微乎其微。对于我们其余的人来说,命令行界面只有在计算机出现严重问题时才可能看到。
突然间,命令行界面成为了我们用计算机完成工作的最佳方式。没有人想花一整天时间与Outlook搏斗。我们只想对智能体说"安排一个会议"。命令行界面使这类任务对智能体和人类来说都变得简单。随着图形界面对下一代智能体界面的相关性降低,这些界面将人类语言的模糊性转化为行动,命令行界面成为了主要接口。其他一切都是干扰。
谷歌认识到了这一点并加以利用,上周发布了gws,一个Google Workspace的命令行界面。该安装程序添加了"技能",教你的智能体如何完全操控你所有的Google Docs、Drive、Calendar、GMail、Sheets等。整个"办公"软件宇宙——以前完全依赖于坐在桌面或移动图形界面后面的人类——现在已成为智能体可以操作来帮助你实现目标的又一个工具。
当公司高层意识到其旗舰软件刚刚遭受重创并被一点接口胶水超越时,微软可能会恍然大悟。
雷德蒙德不会是唯一的受害者。几乎每个主要软件提供商很快都会发现自己在争相为其产品开发命令行界面,希望在竞争对手或活跃的程序员通过智能体兼容接口提供完全相同的功能之前抢占市场。这就是"SaaS末日"的样子。
举个例子:我的Openclaw智能体Clawdine从日志文件中检索了我们的完整聊天记录,将其导出为我可以使用的格式,因为我无法弄清楚如何从Telegram中导出它。(我怀疑这是一个付费功能,叹气。)我的智能体让我能够绕过变得过于复杂的软件造成的损害。用不了多久,我们所有人都会一直在做这样的事情。这将永远改变软件。
Q&A
Q1:什么是命令行界面?为什么它比图形界面更适合智能体?
A:命令行界面是通过文本命令操作计算机的方式。它比图形界面更适合智能体,因为智能体操作图形界面需要截屏、分析图像、反复尝试,过程复杂缓慢。而命令行界面提供了直接、统一的操作方式,让智能体能够高效执行任务。
Q2:微软的Office365Copilot为什么没有成功?
A:微软将Copilot AI软件放在了每个应用内部,这些助手只有本地上下文,与外界隔绝,功能有限。人们发现它们用处不大,很快就学会了忽视它们。真正有用的是外部智能体,它们可以将应用作为工具来协调解决问题。
Q3:谷歌的gws是什么?它有什么作用?
A:gws是谷歌发布的Google Workspace命令行界面工具。它为智能体添加了"技能",让智能体能够完全操控Google Docs、Drive、Calendar、GMail、Sheets等所有谷歌办公软件,将原本依赖人类图形界面操作的办公软件变成智能体可以操作的工具。