Ian Wang
Index

← 文章 / Writing

· 25 min

从Manus看AI Agent的自动化悖论

Manus在3月5日爆红,又在3天内遭到群嘲。但这场闹剧背后有一个更值得认真对待的问题:全自动AI Agent,到底是不是一个好方向?这篇文章从自动化的百年历史出发,结合一篇1983年的经典论文,试图回答这个问题。

ai · agent · automation · human-ai · history

这篇是 《科技慢半拍》EP83:从Manus看AI Agent的自动化悖论 的文字稿整理版,补充了论文核心论点、历史脉络与人机协作的几种具体形态。

楔子:一场三天的闹剧,和一个更深的问题

2025年3月5日,Manus发布了。

邀请码被炒到上万元,有人拿它来发币,X账号随之被封。证券公司开始发分析报告,说这是”国运”,说这是”DeepSeek第二”。

还没到第二天,风向就变了。效果不行、处理卡顿、套壳应用——骂声铺天盖地。GitHub上出现了五个复刻的开源项目,其中一个叫OpenManus,是三个00后用MetaGPT花三个小时做出来的。

Manus本身的故事,确实是一场闹剧。但这场闹剧背后有一个更值得认真对待的问题:

我们真的需要全自动化的AI Agent吗?

这个问题不是今天才有答案的。1983年,认知心理学家莉萨娜·贝恩布里奇(Lisanne Bainbridge)在《自动化》期刊上发表了一篇被引用超过1800次的论文:《Ironies of Automation》(自动化的反讽)。她的主要论点是:任何自动化系统最终都会变成”人与机器共同协作的系统”。哪怕你不断提高自动化水平,“人的因素”始终至关重要。

在读到这篇论文之前,我从自己多年做自动化的经历里已经隐约感受到了这一点。论文让它变得清晰。

一、自动化的历史:从神话到流水线

要理解AI自动化的悖论,先要理解自动化本身是怎么来的。

最早的自动化想象:神话与哲学

希腊神话中,火神赫菲斯托斯创造了”金仆”——一种能服务神和人的机械仆人。亚里士多德设想过一个世界,机器人成为真正的劳动力资源,把人从劳役中解放出来。公元前420年,希腊工程师已经在用空气、蒸汽压缩和液压驱动最简单的自动装置——主要用于宗教仪式,比如自动打开神殿的门。

这些都只是想象和实验。真正让自动化改变世界的,是工业革命。

分工是自动化的前提

18世纪,亚当·斯密在《国富论》里用扣针的例子说明了分工的威力:制造一枚扣针,原本一个工人要完成十八道工序;分工之后,十八个人各做一道,效率提升了数百倍。

斯密把这一效率提升归结为三点:

  1. 熟练程度提升:单一重复工序让工人越来越熟练
  2. 减少切换损耗:不需要在不同工序间切换,时间损失为零
  3. 工具创新:对工序的深度了解推动了更高效工具的发明

这个逻辑很重要:标准化和分工是自动化得以实现的前提。没有标准化的流程,机器无法接管。

泰勒制:自动化的哲学基础

19世纪末,弗雷德里克·泰勒(Frederick Taylor)提出了”科学管理理论”(泰勒制)。他用秒表记录每个工作步骤的时间,设计出最有效的工作方法,制定标准工作量,把整个生产流程归划为一套标准的操作规程。

泰勒制的本质是:把人的工作变成可测量、可复制、可优化的标准化流程。这正是自动化的哲学基础——你只有把流程拆解清楚,才能让机器接管

福特流水线:标准化的终极实践

20世纪初,亨利·福特将泰勒理论付诸实践,创造了现代制造业的流水线。他把一辆汽车的组装时间从12小时缩短到90分钟,Model T的价格从850美元降到300美元以下。

福特流水线的核心,不是机器本身,而是把每个工序压缩到极致的标准化——每24秒制造一辆汽车,到1927年全球销量超过1500万辆。这套方法迅速扩散到其他制造业:留声机、吸尘器、冰箱。

从蓝领到白领:信息化时代的自动化困境

制造业的自动化历程经历了三个阶段:单机自动化、单线生产自动化、工厂自动化。到今天,高度自动化的工厂已经是现实。

但从1950年代开始,美国白领工人的比例就超过了蓝领,今天已经达到总就业人数的80%。中国在过去20年也产生了大量的”坐在办公室里操控电脑”的白领工人。

白领的自动化水平,远远落后于制造业

原因不难理解:制造业的产品高度标准化(同一款iPhone手机全世界都一样),工序可以精确测量和复制。但白领的工作——写报告、做决策、沟通协调——高度依赖判断力、情境理解和隐性知识,很难标准化。

企业里确实建立了各种信息系统,流程也在逐步标准化。但大多数流程之中的协作,还是由人来完成的。类比制造业的发展历程,白领的信息化自动化大约处于”单机自动化”到”单线自动化”之间,远没有达到”工厂自动化”的水平。

个人自动化:懒惰还是解放?

如果说企业的自动化诉求源于对利润的追求,个人的自动化诉求表面上是懒惰——身体懒得动,脑子懒得想。

在过去,人是自动化工具的”控制者”:用Excel宏来加速工作,但仍然理解数据;用机械臂生产汽车,但人类掌握核心技术。

而今天,人却越来越成为”消费者”:AI自动推荐内容,我们被动接受;AI生成文章和短视频,我们直接分享转发,不再思考它的真实性和逻辑。

这引出了一个值得认真对待的问题:当我们不需要自己思考、决定、探索时,我们真的过得更好吗?

二、人类向左,AGI向右

现在让我们回到AI时代,看看这里有什么不同寻常的地方。

工业社会运转的基础是专业分工。企业按职能分部门,学校按专业分学科,社会按资格认证分职业——整个体系的目的,是把人训练成某个领域的专业劳动力,降低企业在选择劳动力时的信任成本,同时确保专业服务的可靠性。

这个逻辑是自洽的:企业需要专业化,学校就培养专业人才;有了标准化的人才,才有了自动化的可能。

但人工智能发展到今天,出现了一个关键的分叉:

行业里的专家们已经不再满足于专业领域的AI,而是在追求AGI(通用人工智能)——具备通用能力、跨领域融合、能从全局视角处理广泛问题的系统。

人类向左,AGI向右。

工业社会的逻辑是:专业分工→标准化→自动化→效率最大化。但AGI的目标是打破专业分工,追求通用能力。这两个方向根本上是相悖的。

如果AGI真的实现了,整个社会结构可能需要重组:企业还需要按专业分部门吗?学校还需要分专业吗?各种资格认证考试还有意义吗?

当然,今天我们还没到那一步。今天能看到的AI Agent自动化,仍然是建立在现有分工协作基础上的——它主要解决两个问题:一是组织AI协作(理解意图、安排任务、协调沟通);二是提供个性化服务(在标准化流程之上,针对具体用户输出个性化结果)。这两个能力是有价值的,但它依然依附于旧的专业分工体系,没有突破这个约束。

三、全自动化的四重悖论

现在来到核心问题:为什么理想中的全自动AI Agent在今天不可能实现?

贝恩布里奇的论文给出了四个原因,我用自己的理解加以阐述:

悖论一:人类提不出清晰的目标

人类的思维本质上是模糊的。我们往往靠直觉、经验和情感来表达目标,这些内在体验很难转换成精确的指令。

更麻烦的是,人类大脑具备”高阶模糊处理能力”——我们可以在信息不全时用直觉、经验和社会共识填补逻辑空白,但在把要求提给AI Agent时,这种能力就失效了。

另一个问题是,人类的目标本身就是多层次的、甚至互相冲突的。一个人可能同时追求职业成功和家庭幸福,这两个目标在某些情况下是矛盾的。如果不清晰地权衡和定义,AI很容易误解优先级。

你可能会说:领导给下属安排工作时不也是这样吗?确实。所以人类协作中有一套机制:下属通过复述问题与领导确认,在工作过程中产生中间结果时再确认。这种动态确认机制在人类协作中是常态,但在全自动化系统中往往被省略了。

悖论二:自动化导致技能退化,退化又限制了更高的自动化

当自动化接管大部分工作,人类操作员主要工作是监控。但一旦真的需要人工介入处理异常,他们却发现自己因为长期缺乏实践而退化严重。

更讽刺的是:自动化水平越高,留给人处理的问题就越少、越复杂。这意味着,自动化越好,对人工操作员的要求反而越高——因为他们需要处理更难、更罕见的异常事件。

这不仅适用于动手能力,同样适用于认知能力。当系统刚实现自动化时,操作员的技能还很强(因为之前一直手动练习)。但下一代操作员没有经历过手动操作,技能的提取会更慢、更费劲。

悖论三:人类无法处理自动化系统的异常

操作员只需要监控罕见的异常,所以很难长期保持警觉。于是需要自动报警系统——但系统越复杂,需要的警报就越多;警报越多,紧急状况时的混乱程度就越高。

更深的问题是:人们之所以用自动化,是因为相信机器比人类做得更好。但当机器出错,又得由人类来判断是否出错、怎么出错。

如果一个决策完全由AI负责,那说明AI能比人类更快地做出决策,考虑更多因素,运用更精确的标准。因此,人类根本无法实时判断机器的决策是否正确,只能在更高的”元层次”上判断机器的决定是否”可以接受”。但如果机器本身就是因为人类判断力不足才被使用,那人类又凭什么判断机器决策的好坏呢?

这是一个无解的循环。

贝恩布里奇的建议是:当自动化系统出现问题时,最好的方式是”停机→观察→理解→修正→重新启动”。但并非所有系统都能随时停下来处理(比如核电厂或飞行中的飞机)。因此,如果无法确保系统能可靠地处理超出人类反应速度的故障,她建议直接不要开发这种系统

悖论四:人类无法承担全自动化的责任

当系统需要考虑效率以外的因素——公众接受度、伦理标准、法律责任——人类就必须参与其中。全自动化的AI系统,谁来承担结果的责任?

况且,今天的大模型本质上是”类人特性”的——它不是100%准确,不能保持一致性输出,是个不透明的黑盒。这种特性和传统自动化机器(按固定规则运行、结果稳定可预期)完全不同。对于黑盒的、不确定的自动化,人类很难放心让它全程接管

四、通用还是专业:一个关键分叉

基于以上分析,可以得出一个结论:Manus式的”通用全自动Agent”,不是一个好方向

原因很简单:通用领域的目标和知识很难和用户对齐,面对具体场景时既难优化,也难形成用户习惯,说白了就是”没有解决问题或干活的套路”。

反过来看,那些真正跑通的AI应用——Cursor的代码生成、Deep Research的学术调研、Storm的研究报告——都是专业领域的人机协作工具。它们的成功在于:在垂直领域内置了大量对行业知识的理解和约束,让用户知道”这个工具能做什么、不能做什么”,从而建立起稳定的使用习惯。

今天AI Agent能做的事情,主要集中在”2C端的小任务”——做个小游戏、开发个网站、查找个资料。这些任务的共同特点是:目标相对清晰,流程相对标准,失败的代价可以接受。一旦进入2B端的复杂业务流程,全自动Agent就难以为继了。

五、理想中的人机协作

既然全自动化不现实,那么人与AI应该怎么协作?

答案是:Human in the Loop(HITL)——把人类放在自动化处理的循环中。

这个概念和Manus式”一干到底”的方法是相反的。理想的HITL模式是:步骤验证,有问题随时迭代回到前面的节点,让AI重做,或人类介入给出答案。

一个典型的例子是Flowith的Oracle模式。Flowith是一个画布式的AI协作平台,用起来像在白板上写字,可以创建与AI互动的多个节点,每个节点代表一个子任务,节点之间可以连接形成思维网络。

Oracle模式的核心设计是:

  • AI设计完整套执行方案(Recipe)后,先与用户确认,用户可以修改具体步骤、调整顺序、增删内容
  • 每步执行完后,Oracle根据执行结果对整个方案进行必要更新
  • 如果用户不满意,AI会生成更多步骤,继续尝试

人不是旁观者,而是协作中的主导者——在关键节点介入、修正、决策。

HITL的具体形态有几种,各有利弊:

人类监督(Human Oversight):AI决策前后,人类进行审查、确认或修正。效率稍低,但控制感最强。

人类增强(Human Augmentation):AI提供建议,人类审核同意后AI才执行。优点是人保有决策权,缺点是人需要真正理解AI的建议才能有效判断。

人机团队协作(Human-AI Teaming):部分任务给AI,部分给人,AI可以给人派活,人也可以给AI派活。难点在于任务分配的决策——给AI多了人不放心,给人多了效率不够。

人类介入者(Human Interrupt):AI独立运行,人类不实时干预,但可随时介入,在关键决策点控制AI。难点在于:AI处理速度那么快,人真的介入得进去吗?一旦打断,自动化流程还能续上吗?

每种方式都有它没解决的问题。但这些问题并非不能被解决——随着大模型能力的提升,会有越来越多的好产品在实际处理效果、人机交互模式和用户体验之间找到新的平衡点。

尾声:荒诞哲学与自动化的宿命

今天的节目充满了悖论:

人类的自动化貌似在为每个人服务,实质上却是为企业和社会效率服务;传统自动化建立在专业分工之上,而AGI却在追求打破这种分工;我们最渴望的是完全不需要人介入的全自动化,但自动化的本质恰恰又不允许人类脱离;AI Agent的短期形态和AGI的长期愿景,彼此也是相悖的。

加缪(Albert Camus)在《西西弗的神话》里提出了”荒诞哲学”:人类渴望找到生命的意义,但世界本身没有给予任何固有的意义。这种追求与现实之间无法弥合的鸿沟,就是”荒诞”。

他说:我们追求的总是不可得,存在的又不是我们想要的。但这并不意味着追求没有意义,而是需要在过程中找到自己的意义。

人类与自动化的关系,大概也是如此。我们永远在追求更彻底的自动化,但那个”理想中完全不需要人类参与的全自动化”,或许永远只是一个地平线——可以无限接近,但始终无法真正抵达。

而在这个追求的过程中,如何找到人类与AI协作的合理形态,或许才是真正值得思考的问题。