EP84 强化学习的前世今生

这期讲了什么

强化学习的根在心理学：1898年桑代克把猫关进箱子做实验，从”效果法则”到赫布法则、再到马尔可夫决策过程，让今天AI飞速进化的数学框架，是一个世纪跨学科积累的结果
图灵、明斯基和香农都做过强化学习实验：但”强化学习”这个名词直到巴托-萨顿师徒档才正式成型；塞缪尔1956年的跳棋程序是世界上第一个会自学习的计算机程序
《苦涩的教训》是OpenAI的圣经：萨顿2019年的文章——“只有学习和搜索是可以无限缩放的”——奠定了Scaling Law的信仰基础，也是GPT大模型诞生的哲学根基
多巴胺意外成了强化学习的生物学证据：神经科学家舒尔茨发现多巴胺细胞的活动模式与TD误差公式惊人吻合，大脑的奖励系统和强化学习算法用的是同一套逻辑
从AlphaGo到RLHF，强化学习是AI每次大突破的幕后推手：它是让机器从”被动模仿”变成”主动探索”的关键跨越，而公众讨论的永远是模型和数据，不是这个机制本身
萨顿的最新答案是去中心化：他认为持续学习、每个神经元拥有独立目标，才是超越当前深度学习瓶颈的路——这和今天的大模型架构是截然不同的路径