1、产品定位于“无所不能的通用智能体”还是“精通特定领域的垂直专家”?这个定位直接决定了未来产品发展的路径,是战略性的问题。
manus团队确定通用性优先,让产品具备通用性,吸引用户尝试各种各样的任务(Query),通过分析高频、高价值的Query,逐步在平台沉淀和优化高频场景,通过类似于框架的“预设能力”,使常见任务能够秒级完成。
但通用性Agent如何面对专业领域Agent的挑战,manus团队认为未来的Agent可以通过操作专业领域Agent/应用程序的方式实现专业领域任务,以超越专业领域Agent,但知识层面需要实现领域隔离或知识分区,以避免知识混淆问题。
2、架构上如何构建具备代理能力的Agent?云端浏览器和长期记忆是实现核心,如何平衡易用性与安全性?
manus团队最初讨论的是一个被Agent接管的浏览器概念,参考了一个XPRA开源项目,可以将远程应用以流式方式传输到前端,只传输发生变化的像素区域,以降低远程低延迟交互。
但团队认为,当前市面的项目更多是一次性的会话机制,导致大量的重复工作,糟糕的用户体验。
所以Manus必须从根本上解决这个问题,实现全面的状态持久化,包括登录态(各个网站的登录态,避免用户手动接入)、文件系统(为每个用户或项目保存持久化的工作目录,所有生成的文件、下载的数据、编写的代码都被保存下来便于复用)。
3、产品界面如何设计,以同时满足管理者“只看结果”和工程师“关心过程”的两种需求?平衡信任、信息过载、渐进式披露的设计理念。
Manus团队分析了Devin,其界面分左右两栏,左边是对话流、右侧是工作区(planner、shell、Browser),正好服务了两类不同的用户心智。
右侧工作区可以建立“他在认真干活”的信任感,也可以便于调试和监督,左侧提供了直接任务结果。
单右侧信息太多,也会给用户造成信息过载的认知负担,而且多样信息缺少组织,导致管理困难。
于是团队提出来“渐进式披露”的方案,默认呈现给用户的应该是极其简洁的界面,随着任务展开,Agent所需的工具才作为独立窗口或标签页浮出来。
4、探索人机互动协作模式,克服人类认知局限,探索Agent价值。
人最大的问题是不知道自己不知道,过于经验主义,同时缺乏长时间专注机制,而Agent作为复杂系统的调度官或超级助理,则可以辅助人类超越认知局限,具备强大执行力。