Ian Wang
Index

← 播客 / Podcast

强化学习的前世今生
EP 84 · 55 min

强化学习的前世今生

2024年图灵奖授予强化学习奠基人巴托与萨顿。从桑代克的猫笼实验,到AlphaGo打败人类,再到DeepSeek R1的自我推理——这是一段横跨百年、由心理学、数学与神经科学共同编织的认知革命。

在此页收听 / Listen here

在小宇宙收听 ↗

这期讲了什么

  • 强化学习的根在心理学:1898年桑代克把猫关进箱子做实验,从”效果法则”到赫布法则、再到马尔可夫决策过程,让今天AI飞速进化的数学框架,是一个世纪跨学科积累的结果
  • 图灵、明斯基和香农都做过强化学习实验:但”强化学习”这个名词直到巴托-萨顿师徒档才正式成型;塞缪尔1956年的跳棋程序是世界上第一个会自学习的计算机程序
  • 《苦涩的教训》是OpenAI的圣经:萨顿2019年的文章——“只有学习和搜索是可以无限缩放的”——奠定了Scaling Law的信仰基础,也是GPT大模型诞生的哲学根基
  • 多巴胺意外成了强化学习的生物学证据:神经科学家舒尔茨发现多巴胺细胞的活动模式与TD误差公式惊人吻合,大脑的奖励系统和强化学习算法用的是同一套逻辑
  • 从AlphaGo到RLHF,强化学习是AI每次大突破的幕后推手:它是让机器从”被动模仿”变成”主动探索”的关键跨越,而公众讨论的永远是模型和数据,不是这个机制本身
  • 萨顿的最新答案是去中心化:他认为持续学习、每个神经元拥有独立目标,才是超越当前深度学习瓶颈的路——这和今天的大模型架构是截然不同的路径

几个关键判断

  • 强化学习是AI的暗线:每次标志性突破背后都是它,但很少被直接讨论
  • “苦涩的教训”对人类的启示:萨顿说只有”学习”和”搜索”可无限缩放——那些范围窄、套路固定的技能天花板极低,AI时代可缩放的能力才是护城河
  • 强化学习比监督学习更接近人类学习方式:监督学习是”有人给你标准答案”,强化学习是”自己试错获得奖励”——两者对人类工作价值的冲击路径完全不同
  • 萨顿反对集中控制AI:他认为去中心化合作——而非暂停或管控——才是人类与AI共同繁荣的路径

时间轴

  • 01:40 从AlphaGo到RLHF(基于人类反馈的强化学习)
  • 03:56 关于萨顿的《苦涩的教训》(The Bitter Lesson)
  • 09:15 强化学习的启蒙奠基
  • 15:35 人工智能领域的早期发展
  • 21:04 游戏让强化学习续命
  • 25:49 强化学习的诞生
  • 40:35 强化学习的后继演化
  • 45:30 萨顿最新的观点,《去中心化神经网络》

推荐阅读

  • 理查德·萨顿:《苦涩的教训》(The Bitter Lesson),2019
  • 理查德·萨顿 & 安德鲁·巴托:《强化学习:导论》(Reinforcement Learning: An Introduction),1998
  • 个人长文:《强化学习的前世今生》