Ian Wang
Index

← 播客 / Podcast

从考场到职场|AI 智能体的新摩尔定律
EP 120 · 42 min

从考场到职场|AI 智能体的新摩尔定律

AI 大模型的评分一路破纪录,但这些分数真的代表智能吗?从 MMLU 的"高考"到 Chatbot Arena 的"竞技场",再到 METR 提出的"任务地平线"——评估范式正在经历一场从考场到职场的根本转变。Claude Opus 4.5 的任务地平线是 4 小时 49 分钟,而每 4 到 7 个月翻一倍的速度,正在构成 AI 智能体时代的新摩尔定律。

在此页收听 / Listen here

在小宇宙收听 ↗

这期讲了什么

AI 榜单的分数一路狂飙,但衡量”聪明”的标准,正在经历一场范式革命。

  • 评估进化史:GLUE 小学语文 → MMLU 全科高考 → GPQA Diamond 博士级问答 → Chatbot Arena 真实用户投票——每一代榜单都在被模型”刷穿”
  • 数据污染危机:“古德哈特定律”在 AI 领域完美应验,当 MMLU 分数变成 KPI,它就失去了作为度量衡的资格
  • 任务地平线:METR 把评估从”考场”带入”职场”——不再看答题得分,而是看 AI 在完全没有人类干预的情况下,能独立处理多长时间的真实工作
  • 半衰期模型:4 分钟内的任务成功率接近 100%,超过 4 小时就断崖跌破 10%——要达到人类员工 99% 的可靠性,需要再经历约 9 次 GPT-4→GPT-5 级别的代际跨越
  • 新摩尔定律:任务地平线每 4 到 7 个月翻一倍,预计 2026 年末达到 8 小时,2028—29 年跨越”一个月工作量”门槛

几个关键判断

  • 高分≠高能:在静态榜单上拿 92% 的模型,在 SWE-Bench Pro 真实代码库里的成功率还不到 25%
  • 上下文腐败是长任务的隐形杀手——随着任务时间延长,冗余信息累积导致”目标漂移”,AI 做着做着就忘了最初要干什么
  • RLVR 让 AI 从”背课本”转向”实战演习”——有了自动裁判,AI 可以在数千次失败里自我进化,天花板不再受限于人类能提供多少数据
  • 初级员工就业率下降 13%,资深员工需求上升 6—9%——AI 在精准收割”成文知识”岗位,“默会知识”的护城河比以前更重要
  • 职场权力正从”执行者”移交给”监督者”——未来的核心竞争力,是能否验证 AI 生成的结果到底是对是错

时间轴

  • 01:03 现有的 AI 评估方法
  • 11:46 METR 的”任务地平线”测评
  • 14:20 任务成功率的半衰期
  • 22:57 “马拉松”式的职场模拟器
  • 24:30 AI 智能体的新摩尔定律
  • 26:36 智能体能力提升的三大引擎
  • 33:22 对人类职场的影响

推荐阅读

  • METR《Measuring AI Ability to Complete Long Tasks》——任务地平线方法论的原始论文
  • SWE-Bench Pro 官方报告——真实代码库评测的完整数据
  • 个人长文:《从考场到职场——AI 智能体的新摩尔定律》