从Manus看AI Agent的自动化悖论

这篇是《科技慢半拍》EP83：从Manus看AI Agent的自动化悖论的文字稿整理版，补充了论文核心论点、历史脉络与人机协作的几种具体形态。

楔子：一场三天的闹剧，和一个更深的问题

2025年3月5日，Manus发布了。

邀请码被炒到上万元，有人拿它来发币，X账号随之被封。证券公司开始发分析报告，说这是”国运”，说这是”DeepSeek第二”。

还没到第二天，风向就变了。效果不行、处理卡顿、套壳应用——骂声铺天盖地。GitHub上出现了五个复刻的开源项目，其中一个叫OpenManus，是三个00后用MetaGPT花三个小时做出来的。

Manus本身的故事，确实是一场闹剧。但这场闹剧背后有一个更值得认真对待的问题：

我们真的需要全自动化的AI Agent吗？

这个问题不是今天才有答案的。1983年，认知心理学家莉萨娜·贝恩布里奇（Lisanne Bainbridge）在《自动化》期刊上发表了一篇被引用超过1800次的论文：《Ironies of Automation》（自动化的反讽）。她的主要论点是：任何自动化系统最终都会变成”人与机器共同协作的系统”。哪怕你不断提高自动化水平，“人的因素”始终至关重要。

在读到这篇论文之前，我从自己多年做自动化的经历里已经隐约感受到了这一点。论文让它变得清晰。

一、自动化的历史：从神话到流水线

要理解AI自动化的悖论，先要理解自动化本身是怎么来的。

最早的自动化想象：神话与哲学

希腊神话中，火神赫菲斯托斯创造了”金仆”——一种能服务神和人的机械仆人。亚里士多德设想过一个世界，机器人成为真正的劳动力资源，把人从劳役中解放出来。公元前420年，希腊工程师已经在用空气、蒸汽压缩和液压驱动最简单的自动装置——主要用于宗教仪式，比如自动打开神殿的门。

这些都只是想象和实验。真正让自动化改变世界的，是工业革命。

分工是自动化的前提

18世纪，亚当·斯密在《国富论》里用扣针的例子说明了分工的威力：制造一枚扣针，原本一个工人要完成十八道工序；分工之后，十八个人各做一道，效率提升了数百倍。

斯密把这一效率提升归结为三点：

熟练程度提升：单一重复工序让工人越来越熟练
减少切换损耗：不需要在不同工序间切换，时间损失为零
工具创新：对工序的深度了解推动了更高效工具的发明

这个逻辑很重要：标准化和分工是自动化得以实现的前提。没有标准化的流程，机器无法接管。

泰勒制：自动化的哲学基础

19世纪末，弗雷德里克·泰勒（Frederick Taylor）提出了”科学管理理论”（泰勒制）。他用秒表记录每个工作步骤的时间，设计出最有效的工作方法，制定标准工作量，把整个生产流程归划为一套标准的操作规程。

泰勒制的本质是：把人的工作变成可测量、可复制、可优化的标准化流程。这正是自动化的哲学基础——你只有把流程拆解清楚，才能让机器接管。

福特流水线：标准化的终极实践

20世纪初，亨利·福特将泰勒理论付诸实践，创造了现代制造业的流水线。他把一辆汽车的组装时间从12小时缩短到90分钟，Model T的价格从850美元降到300美元以下。

福特流水线的核心，不是机器本身，而是把每个工序压缩到极致的标准化——每24秒制造一辆汽车，到1927年全球销量超过1500万辆。这套方法迅速扩散到其他制造业：留声机、吸尘器、冰箱。

从蓝领到白领：信息化时代的自动化困境

制造业的自动化历程经历了三个阶段：单机自动化、单线生产自动化、工厂自动化。到今天，高度自动化的工厂已经是现实。

但从1950年代开始，美国白领工人的比例就超过了蓝领，今天已经达到总就业人数的80%。中国在过去20年也产生了大量的”坐在办公室里操控电脑”的白领工人。

而白领的自动化水平，远远落后于制造业。

原因不难理解：制造业的产品高度标准化（同一款iPhone手机全世界都一样），工序可以精确测量和复制。但白领的工作——写报告、做决策、沟通协调——高度依赖判断力、情境理解和隐性知识，很难标准化。

企业里确实建立了各种信息系统，流程也在逐步标准化。但大多数流程之中的协作，还是由人来完成的。类比制造业的发展历程，白领的信息化自动化大约处于”单机自动化”到”单线自动化”之间，远没有达到”工厂自动化”的水平。

个人自动化：懒惰还是解放？

如果说企业的自动化诉求源于对利润的追求，个人的自动化诉求表面上是懒惰——身体懒得动，脑子懒得想。

在过去，人是自动化工具的”控制者”：用Excel宏来加速工作，但仍然理解数据；用机械臂生产汽车，但人类掌握核心技术。

而今天，人却越来越成为”消费者”：AI自动推荐内容，我们被动接受；AI生成文章和短视频，我们直接分享转发，不再思考它的真实性和逻辑。

这引出了一个值得认真对待的问题：当我们不需要自己思考、决定、探索时，我们真的过得更好吗？

二、人类向左，AGI向右

现在让我们回到AI时代，看看这里有什么不同寻常的地方。

工业社会运转的基础是专业分工。企业按职能分部门，学校按专业分学科，社会按资格认证分职业——整个体系的目的，是把人训练成某个领域的专业劳动力，降低企业在选择劳动力时的信任成本，同时确保专业服务的可靠性。

这个逻辑是自洽的：企业需要专业化，学校就培养专业人才；有了标准化的人才，才有了自动化的可能。

但人工智能发展到今天，出现了一个关键的分叉：

行业里的专家们已经不再满足于专业领域的AI，而是在追求AGI（通用人工智能）——具备通用能力、跨领域融合、能从全局视角处理广泛问题的系统。

人类向左，AGI向右。

工业社会的逻辑是：专业分工→标准化→自动化→效率最大化。但AGI的目标是打破专业分工，追求通用能力。这两个方向根本上是相悖的。

如果AGI真的实现了，整个社会结构可能需要重组：企业还需要按专业分部门吗？学校还需要分专业吗？各种资格认证考试还有意义吗？

当然，今天我们还没到那一步。今天能看到的AI Agent自动化，仍然是建立在现有分工协作基础上的——它主要解决两个问题：一是组织AI协作（理解意图、安排任务、协调沟通）；二是提供个性化服务（在标准化流程之上，针对具体用户输出个性化结果）。这两个能力是有价值的，但它依然依附于旧的专业分工体系，没有突破这个约束。

三、全自动化的四重悖论

现在来到核心问题：为什么理想中的全自动AI Agent在今天不可能实现？

贝恩布里奇的论文给出了四个原因，我用自己的理解加以阐述：

悖论一：人类提不出清晰的目标

人类的思维本质上是模糊的。我们往往靠直觉、经验和情感来表达目标，这些内在体验很难转换成精确的指令。

更麻烦的是，人类大脑具备”高阶模糊处理能力”——我们可以在信息不全时用直觉、经验和社会共识填补逻辑空白，但在把要求提给AI Agent时，这种能力就失效了。

另一个问题是，人类的目标本身就是多层次的、甚至互相冲突的。一个人可能同时追求职业成功和家庭幸福，这两个目标在某些情况下是矛盾的。如果不清晰地权衡和定义，AI很容易误解优先级。

你可能会说：领导给下属安排工作时不也是这样吗？确实。所以人类协作中有一套机制：下属通过复述问题与领导确认，在工作过程中产生中间结果时再确认。这种动态确认机制在人类协作中是常态，但在全自动化系统中往往被省略了。

悖论二：自动化导致技能退化，退化又限制了更高的自动化

当自动化接管大部分工作，人类操作员主要工作是监控。但一旦真的需要人工介入处理异常，他们却发现自己因为长期缺乏实践而退化严重。

更讽刺的是：自动化水平越高，留给人处理的问题就越少、越复杂。这意味着，自动化越好，对人工操作员的要求反而越高——因为他们需要处理更难、更罕见的异常事件。

这不仅适用于动手能力，同样适用于认知能力。当系统刚实现自动化时，操作员的技能还很强（因为之前一直手动练习）。但下一代操作员没有经历过手动操作，技能的提取会更慢、更费劲。

悖论三：人类无法处理自动化系统的异常

操作员只需要监控罕见的异常，所以很难长期保持警觉。于是需要自动报警系统——但系统越复杂，需要的警报就越多；警报越多，紧急状况时的混乱程度就越高。

更深的问题是：人们之所以用自动化，是因为相信机器比人类做得更好。但当机器出错，又得由人类来判断是否出错、怎么出错。

如果一个决策完全由AI负责，那说明AI能比人类更快地做出决策，考虑更多因素，运用更精确的标准。因此，人类根本无法实时判断机器的决策是否正确，只能在更高的”元层次”上判断机器的决定是否”可以接受”。但如果机器本身就是因为人类判断力不足才被使用，那人类又凭什么判断机器决策的好坏呢？

这是一个无解的循环。

贝恩布里奇的建议是：当自动化系统出现问题时，最好的方式是”停机→观察→理解→修正→重新启动”。但并非所有系统都能随时停下来处理（比如核电厂或飞行中的飞机）。因此，如果无法确保系统能可靠地处理超出人类反应速度的故障，她建议直接不要开发这种系统。

悖论四：人类无法承担全自动化的责任

当系统需要考虑效率以外的因素——公众接受度、伦理标准、法律责任——人类就必须参与其中。全自动化的AI系统，谁来承担结果的责任？

况且，今天的大模型本质上是”类人特性”的——它不是100%准确，不能保持一致性输出，是个不透明的黑盒。这种特性和传统自动化机器（按固定规则运行、结果稳定可预期）完全不同。对于黑盒的、不确定的自动化，人类很难放心让它全程接管。

四、通用还是专业：一个关键分叉

基于以上分析，可以得出一个结论：Manus式的”通用全自动Agent”，不是一个好方向。

原因很简单：通用领域的目标和知识很难和用户对齐，面对具体场景时既难优化，也难形成用户习惯，说白了就是”没有解决问题或干活的套路”。

反过来看，那些真正跑通的AI应用——Cursor的代码生成、Deep Research的学术调研、Storm的研究报告——都是专业领域的人机协作工具。它们的成功在于：在垂直领域内置了大量对行业知识的理解和约束，让用户知道”这个工具能做什么、不能做什么”，从而建立起稳定的使用习惯。

今天AI Agent能做的事情，主要集中在”2C端的小任务”——做个小游戏、开发个网站、查找个资料。这些任务的共同特点是：目标相对清晰，流程相对标准，失败的代价可以接受。一旦进入2B端的复杂业务流程，全自动Agent就难以为继了。

五、理想中的人机协作

既然全自动化不现实，那么人与AI应该怎么协作？

答案是：Human in the Loop（HITL）——把人类放在自动化处理的循环中。

这个概念和Manus式”一干到底”的方法是相反的。理想的HITL模式是：步骤验证，有问题随时迭代回到前面的节点，让AI重做，或人类介入给出答案。

一个典型的例子是Flowith的Oracle模式。Flowith是一个画布式的AI协作平台，用起来像在白板上写字，可以创建与AI互动的多个节点，每个节点代表一个子任务，节点之间可以连接形成思维网络。

Oracle模式的核心设计是：

AI设计完整套执行方案（Recipe）后，先与用户确认，用户可以修改具体步骤、调整顺序、增删内容
每步执行完后，Oracle根据执行结果对整个方案进行必要更新
如果用户不满意，AI会生成更多步骤，继续尝试

人不是旁观者，而是协作中的主导者——在关键节点介入、修正、决策。

HITL的具体形态有几种，各有利弊：

人类监督（Human Oversight）：AI决策前后，人类进行审查、确认或修正。效率稍低，但控制感最强。

人类增强（Human Augmentation）：AI提供建议，人类审核同意后AI才执行。优点是人保有决策权，缺点是人需要真正理解AI的建议才能有效判断。

人机团队协作（Human-AI Teaming）：部分任务给AI，部分给人，AI可以给人派活，人也可以给AI派活。难点在于任务分配的决策——给AI多了人不放心，给人多了效率不够。

人类介入者（Human Interrupt）：AI独立运行，人类不实时干预，但可随时介入，在关键决策点控制AI。难点在于：AI处理速度那么快，人真的介入得进去吗？一旦打断，自动化流程还能续上吗？

每种方式都有它没解决的问题。但这些问题并非不能被解决——随着大模型能力的提升，会有越来越多的好产品在实际处理效果、人机交互模式和用户体验之间找到新的平衡点。

尾声：荒诞哲学与自动化的宿命

今天的节目充满了悖论：

人类的自动化貌似在为每个人服务，实质上却是为企业和社会效率服务；传统自动化建立在专业分工之上，而AGI却在追求打破这种分工；我们最渴望的是完全不需要人介入的全自动化，但自动化的本质恰恰又不允许人类脱离；AI Agent的短期形态和AGI的长期愿景，彼此也是相悖的。

加缪（Albert Camus）在《西西弗的神话》里提出了”荒诞哲学”：人类渴望找到生命的意义，但世界本身没有给予任何固有的意义。这种追求与现实之间无法弥合的鸿沟，就是”荒诞”。

他说：我们追求的总是不可得，存在的又不是我们想要的。但这并不意味着追求没有意义，而是需要在过程中找到自己的意义。

人类与自动化的关系，大概也是如此。我们永远在追求更彻底的自动化，但那个”理想中完全不需要人类参与的全自动化”，或许永远只是一个地平线——可以无限接近，但始终无法真正抵达。

而在这个追求的过程中，如何找到人类与AI协作的合理形态，或许才是真正值得思考的问题。