我们与AI这三年 — 文章 / Writing

这篇整合了《科技慢半拍》EP115：我们与AI这三年（上）和 EP116：我们与AI这三年（下）的内容，上篇聚焦四类群体的认知变化，下篇回到AI技术本身梳理范式演进，合并为一篇完整长文。

引言

你还记得2023年的新年和春节是怎么过的吗？也许很多人的记忆里还是没完没了的核酸检测和口罩。但其实就在那个时间点，一场技术海啸已经悄然登陆，彻底改变了我们之后的世界。它就是”人工智能”。

从那天起，感觉时间就被按下了快进键。每天、每周，都会有新的模型、新的方法、新的观点诞生。一切都要从2022年11月30号说起——那天，OpenAI扔下了一颗重磅炸弹：ChatGPT。短短两个月内，用户直接冲破了一个亿，全世界的科技巨头都坐不住了。2023年直接被冠名为”人工智能元年”。

从2022年底到现在，AI的发展速度和广度都让人叹为观止。各个模型你争我赶，交替领先：昨天你以为Claude会打败ChatGPT，今天就跳出来一个DeepSeek；昨天你还在担心AI视频生成的伪造问题，今天的Suno音乐就几乎达到了专业水准；昨天你以为Google廉颇老矣，今天Gemini就成为了最强大的模型。

一切都世事难料。本文为你综合性地回顾了人工智能领域这三年来的各种发展变化。

前情提要

为了更好说明这三年的变化，先要介绍一下这次人工智能大爆发的前情提要。

让我们回到2012年。当时，谷歌大脑的团队从YouTube随机抓取了1000万个无标签图片去训练神经网络，结果网络里有一个神经元对”猫”产生了独特兴趣——AI自己学会了”猫”是什么。这个实验标志着”无监督学习”能力的诞生：AI不再只能被动执行指令，它开始有能力在海量未经整理的数据里，自己去发现规律和概念。

接下来是语言理解。Word2Vec把每个词变成高维向量，让机器第一次能够”计算”语义——“国王”的向量减去”男人”加上”女人”，最接近的词是”女王”。虽然这还不是真正的理解，但它为后来更复杂的语言模型铺平了道路。

算力也是关键。谷歌为了部署更好的语音识别模型，发现需要把服务器数量翻倍，于是转而研发专用硬件。2015年第一代TPU问世，速度比同期CPU/GPU快15到30倍。与此同时，英伟达找到了最佳合作伙伴OpenAI，从DGX-1的名场面开始，全面押注人工智能。后来的GPT-1、GPT-2、GPT-3，每一次模型突破都离不开底层的GPU算力。

最后一块拼图在2017年出现——Transformer架构。它的核心是”自注意力机制”：不压缩信息，把所有中间状态全都保留下来，让模型在需要时自己去”关注”任何重要的部分。准确率更高、计算量少了10到100倍、模型大小也小了10倍。更快，更准，还更小。今天的ChatGPT、Gemini，所有主流大模型的心脏，都是Transformer。

人类对于AI的认知变化

普通人：从惊艳到认知依赖

2023年，ChatGPT横空出世，感觉就像是有人在现实世界里施展了一场”魔法”。几乎所有第一次接触大模型的人，心里都会冒出同一句话：“原来AI已经这么厉害了？“这是一种纯粹的、来自技术降维打击的震撼。也正是从那时开始，我们第一次集体意识到，AI已经可以替代一部分传统意义上的”脑力劳动”。

随之而来的是第一波真正意义上的”被替代焦虑”。舆论场上充满极端论调：“AI很快会毁灭世界”、“所有职业都将被替代”。在那个阶段，我们对AI的认知状态是”过度想象大于理性理解”。

到了2024年，画风变了。AI不再是少数人才能体验的”魔法”，而是变成了大规模普及的日常工具。AI写作助手、AI搜索、AI编程工具随处可见。“不会用AI，就要落伍了”的焦虑开始出现。一种新型不平等——“AI使用鸿沟”——在现实中形成了。

普及也意味着祛魅。随着越来越多的人深度使用，AI的”幻觉”问题暴露出来，让人们开始形成更理性的认知：AI可能不是”万能替代者”，而更像是”能力放大器”。它能极大增强我们已有的能力，但并不能完全取代人类的判断、创造和责任心。

进入2025年，AI已经无处不在——嵌入到办公软件、手机操作系统、浏览器、教育平台里。但就在这种无处不在的便利之中，一种新的忧虑浮现。普通人开始意识到自己正在形成”认知依赖”：感觉没有AI就写不出完整的文章；离开AI搜索就不知道如何高效查找信息。

这背后是两个学术概念：“元认知惰性”和”认知卸载”。我们把一部分思考和记忆的工作外包给了机器。就像习惯了计算器，心算能力就会退化一样。唯一可以确定的是：未来不是”人类对抗机器”，而是”人机协同”。

专业人士：从提示词狂热到系统构建者

2023年，程序员发现AI能帮写代码、帮找bug；内容创作者发现写文案、画插图AI也能信手拈来。一个叫做”Prompt Engineer”的岗位突然变得异常火爆。大家普遍产生了一个美丽的误会：只要掌握了绝妙的Prompt，就能解决所有问题。

但这种认知没有持续太久。到了2024年，狂热开始退烧，从业者们开始更清醒地重新审视AI。那些能熟练调用AI工具链、完成整个复杂任务链的工程师开始崭露头角。创作者们进入了一种新的工作模式：50%的灵感和草稿由AI生成，另50%由人类负责筛选、审美和最终编辑。

技术重心从看起来很酷炫的demo，转向了稳定可靠的生产系统。工业级AI必须是可控的、可测的、可复现的。

到了2025年，Vibe Coding大行其道，AI代码比例从11%飙升至50%。开发者的认知才算真正全面成熟了：单个模型本身并不是核心竞争力，由知识、工具、数据和Agent体系共同构成的完整智能系统才是关键。从”Prompt Engineering”演变为更丰富内涵的”Context Engineering”。越来越多的工程师从”AI调用者”转变为”AI系统构建者”。

企业管理者：从降本工具到第二大脑

2023年，大多数老板的反应非常实际和谨慎——“这个新东西能不能帮我省点钱？能不能把重复性工作给自动化了？“AI项目预算按照试点创新的方式下拨，AI就是一个降本增效的工具。

到2024年，生成式AI以火箭般的速度被推上企业效率提升的核心舞台。很多公司开始推行”AI First”的工作流程：写一份报告、做一个方案，先让AI生成初稿，人类员工再在这个基础上修改优化。人类员工的角色，开始从纯粹的执行者，慢慢转变为监督者和优化者。

大家也开始发现，把AI真正落地到业务里，远比想象中难得多：大模型会产生幻觉，数据安全和隐私让人头疼，知识库的更新维护也是个大难题。很多有远见的公司开始成立专门的AI部门，AI被正式提升到公司战略层面。

到2025年，AI不再被看作一个工具，而是被视为一种新的”生产资料”——它的重要性，跟数据、跟资本是同等级别的。AI Agent开始接管一部分过去由中层管理者和执行岗位负责的工作。CEO们开始把AI视为整个组织的”第二大脑”。

这种演变和2010年左右企业对数据的认知具有惊人的相似之处：数据也经历了从IT部门备份的”副产品”，一跃成为驱动业务增长的”新能源”的过程。那些未来不能把AI真正内化为组织”第二大脑”的企业，可能面临同样的命运。

监管者：从措手不及到文明级议题

2022年末的ChatGPT对世界各国政府而言，不亚于一场突如其来的大地震。面对扑面而来的巨浪，他们的武器库里几乎是空的。2023年的全球监管者有一个心声：“AI来得太快，我们还没准备好。”

监管做的，大多是把AI这个新物种硬塞进以前监管互联网、监管大数据的旧笼子里。强调的是伦理、数据保护、风险这些老生常谈。就好像用交通规则去管理一架刚发明的飞机，根本不是一回事。

到2024年，全球监管态度发生180度大转弯：欧盟AI法案正式通过，成为全球首个全面性AI法规；中国提出AI分级管理、算法透明度；美国更侧重通过政府采购和市场标准建立可信AI。

这一年最重要的认知升级是：监管者开始认识到AI不再是一个简单的应用或服务，它是一种基础设施——就像电力、通信网络、公路铁路一样，支撑未来社会运转的底层系统。

进入2025年，语境又改变了：从”发展与风险”的讨论，变成了”生存与文明”的拷问。“模型不服从”和”对抗性错位”的真实案例开始出现，AI的生存风险（X-Risk）正式摆在全球政治家的办公桌上。大家逐渐形成了一个统一的底线共识：必须建立”人类控制AI使用”的体系制度。在任何关键决策链条上，必须有一个人类的”刹车”或”开关”。

监管对AI的认知，也经历了一个三级跳：从一个普通的科技服务，到支撑社会运转的关键基础设施，再到具有潜在生存风险的”文明级议题”。

计算范式的变化

2023年，以GPT-4、LLaMA2为代表的时代，大语言模型的核心机制非常”朴素”：预测”下一个词”。它本质上是基于概率在”猜”，而不是基于理解在”说”，所以很容易一本正经地胡说八道。工程师们发现，在提示词中加上”不要直接给答案，先进行一步一步的思考”，确实能在一定程度上提高准确性。

随着模型规模和训练数据的爆炸式增长，人们又发现了一种被称为”涌现”的现象：当模型大到一定程度之后，它在某些任务上的能力会突然发生非线性的飞跃。当年GPT-4展现出的通用推理能力，让微软研究员把这种现象形容为”通用人工智能的火花”。“炼丹”成了大模型领域一个热词。

到2024年，整个行业的重点发生了转移：大家不再满足于被动地观察”涌现”，而是开始主动地去”构建”推理能力。AI的训练目标也变了——从单纯追求预测下一个词的准确率，到混合目标：可验证推理、思维链、思维树、模型的自我反思。AI完成了从**“预测模型”到”推理模型”**的范式转型。

2024年也是AI应用大爆发的一年。如果我们抛开宏大的商业叙事，看看数据，会发现AI最真实、最火爆的两个用途：一个是帮程序员干活，一个是陪人类做梦。在所有模型的使用场景里，“角色扮演”竟然占据了超过50%的份额——这是一个经常被主流科技圈忽视，但规模极其庞大的消费级场景。这说明，AI的先进推理能力，正在同时被应用于我们这个世界的逻辑和情感两个维度。

智能体的崛起：从工具到自主执行者

2023年的大模型工作方式非常被动——你给一个指令，它给一个结果，没有记忆，没有持续的目标。

2024年初，模型开始具备”执行任务、调用工具、多步推理”的能力——我们可以把这个阶段的产物叫做”反应式智能体”。OpenAI提供了函数调用、代码解释器、信息检索等能力。Claude 3和Gemini 1.5实现了超长上下文记忆。

但这些早期的”函数调用”功能限制很大：一次只能用一把工具，相互不兼容，没有全局规划。AI想做件事，必须一步一步来，做完上一步就忘了下一步要干嘛。这暴露了核心瓶颈：模型的”认知能力”越来越强，但它和外部世界之间的”接口能力”却极其弱——就好比一个绝顶聪明的大脑，被困在了一个无法与外界互动的玻璃盒子里。

为了解决这个问题，Anthropic在2024年底提出了MCP（Model Context Protocol）。它就像AI世界的”HTTP协议”或”USB接口”，提供一个统一的API接入层，让所有AI模型都能用同一种语言去连接和调用外部的工具、数据源和软件系统。AI就此长出了可以自由活动的手和脚。

到了2025年，自主智能体已经具备了自主规划、持续执行、根据反馈调整、拥有长期记忆、多智能体协作的能力。AI变成了整个系统的”自主操作层”。

当任务变得足够复杂，单个智能体搞不定，就必须和其他智能体协作。为此，A2A（Agent-to-Agent）协议应运而生：定义标准的消息格式、行为规范和通信协议，让所有智能体”互相理解”，解决权限管理、身份认证和安全审计的问题。A2A，是这个机器社会的TCP/IP。

模型自身的变化

2023年，AI核心还是语言模型（LLM），主要在文字和符号的世界里呼风唤雨。GPT-4虽然开始支持图像输入，但本质上是”后期拼接”——在语言模型旁边外挂了一个视觉编码器，视觉和语言并没有真正融合。

2024年2月，OpenAI扔出了Sora。它的核心技术是”时空补丁”（spacetime patch），让Transformer架构能够理解和建模时间和空间。Sora生成的视频，镜头移动时物体能保持三维一致性；一个物体暂时被挡住，再出现时，模型还”记得”它。这说明AI已经开始从单纯”理解”静态世界，进化到开始”模拟”一个动态的世界。Sora，为”世界模型”这个宏大概念铺下了第一块垫脚石。

到了2025年，“世界模型”概念真正爆发。Figure AI的Helix模型能直接控制机器人的四肢和手指；自动驾驶领域的GAIA-2能同时处理多个摄像头的画面，生成连贯一致的驾驶场景预测；Google DeepMind的Genie 3能生成一个你可以进去”玩”的交互式3D环境；由李飞飞创立的World Labs推出的Marble，能根据一张静态图片直接生成一个可以探索、导航的3D世界。

这种转变背后是三个关键技术的融合：几何意识（理解3D、4D时空结构）、混合模型（传统物理模拟器+生成模型）、具身智能（视觉、语言、动作的结合，让AI能”看、想、做”）。

有趣的是，就在前沿向着”世界模型”高歌猛进的时候，在成熟的语言模型应用市场，出现了一个”返璞归真”的趋势：参数量小于150亿的小模型，正在被市场抛弃；而参数量在150亿到700亿之间的”中型模型”，比如Qwen2.5 Coder 32B，反而成了新宠。大家追求的不是最大最强，而是在能力和成本之间找到最佳平衡点——“模型-市场匹配”。

开源与闭源：灰姑娘效应和市场分割

2023年7月，Meta把可商用的Llama 2模型开源，一下子把门槛拉到了地板上。那些有想法、有行业数据、但没钱烧模型的中小企业和垂直领域创业者，突然之间手里有了”武器”。这不仅仅是一次技术的开放，更是一场创新权的下放。

这让整个AI行业格局迅速走向两极分化：一边是以OpenAI、谷歌、Anthropic为首的闭源巨头，用最神秘的配方和最顶级的食材，烹饪最昂贵的思想盛宴；另一边是以Meta的Llama和Mistral为代表（国内是DeepSeek和千问）的开源社区，提供各种基础食材和工具，鼓励所有人来创造自己的菜品。

有一个有趣的发现，叫做**“灰姑娘效应”**：在某个时间点，一旦某个模型，哪怕它不是最强的，但它恰好完美地解决了某一类用户一个非常具体又没被满足的痛点，它就像给灰姑娘穿上了那只独一无二的水晶鞋，会瞬间锁定这批用户。后来者，即便性能更强，也很难再把这些用户抢走。

DeepSeek更是出现了一个独特的”回旋镖效应”：用户流失一段时间，去尝试了别的新模型之后，居然又重新流了回来——因为在某些特定的技术性能或性价比上，DeepSeek依然有不可替代的优势。

在2025年，由中国开发者贡献的开源模型，在全球开源市场的Token处理量份额，从2024年底几乎可以忽略不计的水平，狂飙到某些周次接近30%。

整个AI市场最终演变成了两个截然不同的世界：“高智商”任务由昂贵的闭源模型主导，解决最复杂、最高价值的难题；“高通量”任务由廉价的开源模型处理，吞噬海量的日常工作。现在的创业公司，核心竞争力不再是算法有多牛，而是对场景的理解有多深、数据有多独特、合规能力有多强。

AI的角色定位变化

2023年，以GPT-4为代表的最强大模型被飞快地塞进了我们日常使用的各种工具里——最典型的例子就是微软的Copilot。这一阶段最核心的变化，是AI第一次让”单人效率”的提升变得可以量化。

到2025年，AI已经成为一种新的”通用生产力基础设施”。你可以把它想象成电力或者互联网——它会像电一样，嵌入到我们所有的工作流程和岗位里。企业买单的逻辑也变了，不再为”用了AI”这个概念本身付费，而是追求实实在在的结果——“结果经济”。

而这种基础设施的重构，催生了一个非常反直觉的经济现象：杰文斯悖论。这个理论最初用来描述煤炭——技术进步让烧煤的效率提高了，按理说煤的消耗量应该下降，但结果恰恰相反：用煤成本降低了，更多新的应用场景被开发出来，导致总消耗量反而暴增。

今天，AI领域正在发生一模一样的事情。当谷歌、DeepSeek推出更便宜、更快的AI模型时，AI的总调用量（Token消耗量）出现了爆发式增长。便宜了，开发者们开始构建更复杂的AI代理循环，执行更高频的自动化任务。低价正在解锁全新的、过去想都不敢想的应用场景。

而这种疯狂增长的需求，最终都指向了同一个地方：算力。从2023年开始，以英伟达GPU为代表的算力资源就成了硬通货，全球都缺货。2024年对生成式AI的投资高达339亿美元，是2022年的8.5倍还多。这种硬件的稀缺，甚至引发了国家和科技巨头之间为了保障”算力主权”的地缘政治博弈。

到了今天，AI已经不再是一个新奇的、可有可无的附加品了。它正在成为我们社会和经济肌体中一个不可或缺的、无处不在的组成部分——从一个让我们惊叹的”工具奇观”，彻底演变成了我们社会运转的内在驱动力，一个”社会器官”。

总结

回顾从2022年底到2025年这三年的旅程，我们目睹的并非一次简单的技术升级，而是一场席卷人类社会每个层面的认知范式革命。

AI从一个令人惊奇的”对话者”，迅速进化为能够自主规划与执行的”行动者”；从处理文本的”专家”，成长为试图理解与模拟物理世界的”探索者”；从一个提高个人效率的”工具”，蜕变为驱动组织变革、产业重构乃至地缘博弈的”基础设施”。

技术层面，我们见证了核心范式从”下一个词预测”到”逻辑推理”，再到”世界模拟”的跃迁；产业格局上，我们看到了开源与闭源两条路径的分化与融合，以及”高智商”与”高通量”应用场景的精细分割；经济逻辑上，我们亲历了由”效率工具”到”生产力基础设施”的转变，以及随之而来的”杰文斯悖论”在算力需求上的真实上演。

然而，这场革命远未结束，它只是刚刚拉开了序幕。我们站在一个临界点上：智能体网络初具雏形，“世界模型”的曙光已然显现，AI作为”社会器官”的形态正在形成。但对齐（Alignment）的终极难题、认知依赖的长期风险、算力与能源的可持续性挑战、以及全球协同治理的迫切需求，所有这些深水区的暗礁都已浮现水面。

唯一可以确定的是：那个没有AI深度介入的世界，我们已经回不去了。

这三年，是AI”闯入”世界旧有文明的一段序曲。而接下来，才是人类与AI共同”塑造”世界正剧的开始。