我们与AI这三年
从2022年底ChatGPT的横空出世,到2025年AI作为"社会器官"无处不在。三年,四类群体各自经历了怎样的认知革命?计算范式、模型能力、应用模式和市场格局又发生了哪些根本性的变化?这是一部关于生存、竞争与未来的认知进化史。
ai · history · cognition · llm · agent · open-source
这篇整合了 《科技慢半拍》EP115:我们与AI这三年(上) 和 EP116:我们与AI这三年(下) 的内容,上篇聚焦四类群体的认知变化,下篇回到AI技术本身梳理范式演进,合并为一篇完整长文。
引言
你还记得2023年的新年和春节是怎么过的吗?也许很多人的记忆里还是没完没了的核酸检测和口罩。但其实就在那个时间点,一场技术海啸已经悄然登陆,彻底改变了我们之后的世界。它就是”人工智能”。
从那天起,感觉时间就被按下了快进键。每天、每周,都会有新的模型、新的方法、新的观点诞生。一切都要从2022年11月30号说起——那天,OpenAI扔下了一颗重磅炸弹:ChatGPT。短短两个月内,用户直接冲破了一个亿,全世界的科技巨头都坐不住了。2023年直接被冠名为”人工智能元年”。
从2022年底到现在,AI的发展速度和广度都让人叹为观止。各个模型你争我赶,交替领先:昨天你以为Claude会打败ChatGPT,今天就跳出来一个DeepSeek;昨天你还在担心AI视频生成的伪造问题,今天的Suno音乐就几乎达到了专业水准;昨天你以为Google廉颇老矣,今天Gemini就成为了最强大的模型。
一切都世事难料。本文为你综合性地回顾了人工智能领域这三年来的各种发展变化。
前情提要
为了更好说明这三年的变化,先要介绍一下这次人工智能大爆发的前情提要。
让我们回到2012年。当时,谷歌大脑的团队从YouTube随机抓取了1000万个无标签图片去训练神经网络,结果网络里有一个神经元对”猫”产生了独特兴趣——AI自己学会了”猫”是什么。这个实验标志着”无监督学习”能力的诞生:AI不再只能被动执行指令,它开始有能力在海量未经整理的数据里,自己去发现规律和概念。
接下来是语言理解。Word2Vec把每个词变成高维向量,让机器第一次能够”计算”语义——“国王”的向量减去”男人”加上”女人”,最接近的词是”女王”。虽然这还不是真正的理解,但它为后来更复杂的语言模型铺平了道路。
算力也是关键。谷歌为了部署更好的语音识别模型,发现需要把服务器数量翻倍,于是转而研发专用硬件。2015年第一代TPU问世,速度比同期CPU/GPU快15到30倍。与此同时,英伟达找到了最佳合作伙伴OpenAI,从DGX-1的名场面开始,全面押注人工智能。后来的GPT-1、GPT-2、GPT-3,每一次模型突破都离不开底层的GPU算力。
最后一块拼图在2017年出现——Transformer架构。它的核心是”自注意力机制”:不压缩信息,把所有中间状态全都保留下来,让模型在需要时自己去”关注”任何重要的部分。准确率更高、计算量少了10到100倍、模型大小也小了10倍。更快,更准,还更小。今天的ChatGPT、Gemini,所有主流大模型的心脏,都是Transformer。
人类对于AI的认知变化
普通人:从惊艳到认知依赖
2023年,ChatGPT横空出世,感觉就像是有人在现实世界里施展了一场”魔法”。几乎所有第一次接触大模型的人,心里都会冒出同一句话:“原来AI已经这么厉害了?“这是一种纯粹的、来自技术降维打击的震撼。也正是从那时开始,我们第一次集体意识到,AI已经可以替代一部分传统意义上的”脑力劳动”。
随之而来的是第一波真正意义上的”被替代焦虑”。舆论场上充满极端论调:“AI很快会毁灭世界”、“所有职业都将被替代”。在那个阶段,我们对AI的认知状态是”过度想象大于理性理解”。
到了2024年,画风变了。AI不再是少数人才能体验的”魔法”,而是变成了大规模普及的日常工具。AI写作助手、AI搜索、AI编程工具随处可见。“不会用AI,就要落伍了”的焦虑开始出现。一种新型不平等——“AI使用鸿沟”——在现实中形成了。
普及也意味着祛魅。随着越来越多的人深度使用,AI的”幻觉”问题暴露出来,让人们开始形成更理性的认知:AI可能不是”万能替代者”,而更像是”能力放大器”。它能极大增强我们已有的能力,但并不能完全取代人类的判断、创造和责任心。
进入2025年,AI已经无处不在——嵌入到办公软件、手机操作系统、浏览器、教育平台里。但就在这种无处不在的便利之中,一种新的忧虑浮现。普通人开始意识到自己正在形成”认知依赖”:感觉没有AI就写不出完整的文章;离开AI搜索就不知道如何高效查找信息。
这背后是两个学术概念:“元认知惰性”和”认知卸载”。我们把一部分思考和记忆的工作外包给了机器。就像习惯了计算器,心算能力就会退化一样。唯一可以确定的是:未来不是”人类对抗机器”,而是”人机协同”。
专业人士:从提示词狂热到系统构建者
2023年,程序员发现AI能帮写代码、帮找bug;内容创作者发现写文案、画插图AI也能信手拈来。一个叫做”Prompt Engineer”的岗位突然变得异常火爆。大家普遍产生了一个美丽的误会:只要掌握了绝妙的Prompt,就能解决所有问题。
但这种认知没有持续太久。到了2024年,狂热开始退烧,从业者们开始更清醒地重新审视AI。那些能熟练调用AI工具链、完成整个复杂任务链的工程师开始崭露头角。创作者们进入了一种新的工作模式:50%的灵感和草稿由AI生成,另50%由人类负责筛选、审美和最终编辑。
技术重心从看起来很酷炫的demo,转向了稳定可靠的生产系统。工业级AI必须是可控的、可测的、可复现的。
到了2025年,Vibe Coding大行其道,AI代码比例从11%飙升至50%。开发者的认知才算真正全面成熟了:单个模型本身并不是核心竞争力,由知识、工具、数据和Agent体系共同构成的完整智能系统才是关键。从”Prompt Engineering”演变为更丰富内涵的”Context Engineering”。越来越多的工程师从”AI调用者”转变为”AI系统构建者”。
企业管理者:从降本工具到第二大脑
2023年,大多数老板的反应非常实际和谨慎——“这个新东西能不能帮我省点钱?能不能把重复性工作给自动化了?“AI项目预算按照试点创新的方式下拨,AI就是一个降本增效的工具。
到2024年,生成式AI以火箭般的速度被推上企业效率提升的核心舞台。很多公司开始推行”AI First”的工作流程:写一份报告、做一个方案,先让AI生成初稿,人类员工再在这个基础上修改优化。人类员工的角色,开始从纯粹的执行者,慢慢转变为监督者和优化者。
大家也开始发现,把AI真正落地到业务里,远比想象中难得多:大模型会产生幻觉,数据安全和隐私让人头疼,知识库的更新维护也是个大难题。很多有远见的公司开始成立专门的AI部门,AI被正式提升到公司战略层面。
到2025年,AI不再被看作一个工具,而是被视为一种新的”生产资料”——它的重要性,跟数据、跟资本是同等级别的。AI Agent开始接管一部分过去由中层管理者和执行岗位负责的工作。CEO们开始把AI视为整个组织的”第二大脑”。
这种演变和2010年左右企业对数据的认知具有惊人的相似之处:数据也经历了从IT部门备份的”副产品”,一跃成为驱动业务增长的”新能源”的过程。那些未来不能把AI真正内化为组织”第二大脑”的企业,可能面临同样的命运。
监管者:从措手不及到文明级议题
2022年末的ChatGPT对世界各国政府而言,不亚于一场突如其来的大地震。面对扑面而来的巨浪,他们的武器库里几乎是空的。2023年的全球监管者有一个心声:“AI来得太快,我们还没准备好。”
监管做的,大多是把AI这个新物种硬塞进以前监管互联网、监管大数据的旧笼子里。强调的是伦理、数据保护、风险这些老生常谈。就好像用交通规则去管理一架刚发明的飞机,根本不是一回事。
到2024年,全球监管态度发生180度大转弯:欧盟AI法案正式通过,成为全球首个全面性AI法规;中国提出AI分级管理、算法透明度;美国更侧重通过政府采购和市场标准建立可信AI。
这一年最重要的认知升级是:监管者开始认识到AI不再是一个简单的应用或服务,它是一种基础设施——就像电力、通信网络、公路铁路一样,支撑未来社会运转的底层系统。
进入2025年,语境又改变了:从”发展与风险”的讨论,变成了”生存与文明”的拷问。“模型不服从”和”对抗性错位”的真实案例开始出现,AI的生存风险(X-Risk)正式摆在全球政治家的办公桌上。大家逐渐形成了一个统一的底线共识:必须建立”人类控制AI使用”的体系制度。在任何关键决策链条上,必须有一个人类的”刹车”或”开关”。
监管对AI的认知,也经历了一个三级跳:从一个普通的科技服务,到支撑社会运转的关键基础设施,再到具有潜在生存风险的”文明级议题”。
计算范式的变化
2023年,以GPT-4、LLaMA2为代表的时代,大语言模型的核心机制非常”朴素”:预测”下一个词”。它本质上是基于概率在”猜”,而不是基于理解在”说”,所以很容易一本正经地胡说八道。工程师们发现,在提示词中加上”不要直接给答案,先进行一步一步的思考”,确实能在一定程度上提高准确性。
随着模型规模和训练数据的爆炸式增长,人们又发现了一种被称为”涌现”的现象:当模型大到一定程度之后,它在某些任务上的能力会突然发生非线性的飞跃。当年GPT-4展现出的通用推理能力,让微软研究员把这种现象形容为”通用人工智能的火花”。“炼丹”成了大模型领域一个热词。
到2024年,整个行业的重点发生了转移:大家不再满足于被动地观察”涌现”,而是开始主动地去”构建”推理能力。AI的训练目标也变了——从单纯追求预测下一个词的准确率,到混合目标:可验证推理、思维链、思维树、模型的自我反思。AI完成了从**“预测模型”到”推理模型”**的范式转型。
2024年也是AI应用大爆发的一年。如果我们抛开宏大的商业叙事,看看数据,会发现AI最真实、最火爆的两个用途:一个是帮程序员干活,一个是陪人类做梦。在所有模型的使用场景里,“角色扮演”竟然占据了超过50%的份额——这是一个经常被主流科技圈忽视,但规模极其庞大的消费级场景。这说明,AI的先进推理能力,正在同时被应用于我们这个世界的逻辑和情感两个维度。
智能体的崛起:从工具到自主执行者
2023年的大模型工作方式非常被动——你给一个指令,它给一个结果,没有记忆,没有持续的目标。
2024年初,模型开始具备”执行任务、调用工具、多步推理”的能力——我们可以把这个阶段的产物叫做”反应式智能体”。OpenAI提供了函数调用、代码解释器、信息检索等能力。Claude 3和Gemini 1.5实现了超长上下文记忆。
但这些早期的”函数调用”功能限制很大:一次只能用一把工具,相互不兼容,没有全局规划。AI想做件事,必须一步一步来,做完上一步就忘了下一步要干嘛。这暴露了核心瓶颈:模型的”认知能力”越来越强,但它和外部世界之间的”接口能力”却极其弱——就好比一个绝顶聪明的大脑,被困在了一个无法与外界互动的玻璃盒子里。
为了解决这个问题,Anthropic在2024年底提出了MCP(Model Context Protocol)。它就像AI世界的”HTTP协议”或”USB接口”,提供一个统一的API接入层,让所有AI模型都能用同一种语言去连接和调用外部的工具、数据源和软件系统。AI就此长出了可以自由活动的手和脚。
到了2025年,自主智能体已经具备了自主规划、持续执行、根据反馈调整、拥有长期记忆、多智能体协作的能力。AI变成了整个系统的”自主操作层”。
当任务变得足够复杂,单个智能体搞不定,就必须和其他智能体协作。为此,A2A(Agent-to-Agent)协议应运而生:定义标准的消息格式、行为规范和通信协议,让所有智能体”互相理解”,解决权限管理、身份认证和安全审计的问题。A2A,是这个机器社会的TCP/IP。
模型自身的变化
2023年,AI核心还是语言模型(LLM),主要在文字和符号的世界里呼风唤雨。GPT-4虽然开始支持图像输入,但本质上是”后期拼接”——在语言模型旁边外挂了一个视觉编码器,视觉和语言并没有真正融合。
2024年2月,OpenAI扔出了Sora。它的核心技术是”时空补丁”(spacetime patch),让Transformer架构能够理解和建模时间和空间。Sora生成的视频,镜头移动时物体能保持三维一致性;一个物体暂时被挡住,再出现时,模型还”记得”它。这说明AI已经开始从单纯”理解”静态世界,进化到开始”模拟”一个动态的世界。Sora,为”世界模型”这个宏大概念铺下了第一块垫脚石。
到了2025年,“世界模型”概念真正爆发。Figure AI的Helix模型能直接控制机器人的四肢和手指;自动驾驶领域的GAIA-2能同时处理多个摄像头的画面,生成连贯一致的驾驶场景预测;Google DeepMind的Genie 3能生成一个你可以进去”玩”的交互式3D环境;由李飞飞创立的World Labs推出的Marble,能根据一张静态图片直接生成一个可以探索、导航的3D世界。
这种转变背后是三个关键技术的融合:几何意识(理解3D、4D时空结构)、混合模型(传统物理模拟器+生成模型)、具身智能(视觉、语言、动作的结合,让AI能”看、想、做”)。
有趣的是,就在前沿向着”世界模型”高歌猛进的时候,在成熟的语言模型应用市场,出现了一个”返璞归真”的趋势:参数量小于150亿的小模型,正在被市场抛弃;而参数量在150亿到700亿之间的”中型模型”,比如Qwen2.5 Coder 32B,反而成了新宠。大家追求的不是最大最强,而是在能力和成本之间找到最佳平衡点——“模型-市场匹配”。
开源与闭源:灰姑娘效应和市场分割
2023年7月,Meta把可商用的Llama 2模型开源,一下子把门槛拉到了地板上。那些有想法、有行业数据、但没钱烧模型的中小企业和垂直领域创业者,突然之间手里有了”武器”。这不仅仅是一次技术的开放,更是一场创新权的下放。
这让整个AI行业格局迅速走向两极分化:一边是以OpenAI、谷歌、Anthropic为首的闭源巨头,用最神秘的配方和最顶级的食材,烹饪最昂贵的思想盛宴;另一边是以Meta的Llama和Mistral为代表(国内是DeepSeek和千问)的开源社区,提供各种基础食材和工具,鼓励所有人来创造自己的菜品。
有一个有趣的发现,叫做**“灰姑娘效应”**:在某个时间点,一旦某个模型,哪怕它不是最强的,但它恰好完美地解决了某一类用户一个非常具体又没被满足的痛点,它就像给灰姑娘穿上了那只独一无二的水晶鞋,会瞬间锁定这批用户。后来者,即便性能更强,也很难再把这些用户抢走。
DeepSeek更是出现了一个独特的”回旋镖效应”:用户流失一段时间,去尝试了别的新模型之后,居然又重新流了回来——因为在某些特定的技术性能或性价比上,DeepSeek依然有不可替代的优势。
在2025年,由中国开发者贡献的开源模型,在全球开源市场的Token处理量份额,从2024年底几乎可以忽略不计的水平,狂飙到某些周次接近30%。
整个AI市场最终演变成了两个截然不同的世界:“高智商”任务由昂贵的闭源模型主导,解决最复杂、最高价值的难题;“高通量”任务由廉价的开源模型处理,吞噬海量的日常工作。现在的创业公司,核心竞争力不再是算法有多牛,而是对场景的理解有多深、数据有多独特、合规能力有多强。
AI的角色定位变化
2023年,以GPT-4为代表的最强大模型被飞快地塞进了我们日常使用的各种工具里——最典型的例子就是微软的Copilot。这一阶段最核心的变化,是AI第一次让”单人效率”的提升变得可以量化。
到2025年,AI已经成为一种新的”通用生产力基础设施”。你可以把它想象成电力或者互联网——它会像电一样,嵌入到我们所有的工作流程和岗位里。企业买单的逻辑也变了,不再为”用了AI”这个概念本身付费,而是追求实实在在的结果——“结果经济”。
而这种基础设施的重构,催生了一个非常反直觉的经济现象:杰文斯悖论。这个理论最初用来描述煤炭——技术进步让烧煤的效率提高了,按理说煤的消耗量应该下降,但结果恰恰相反:用煤成本降低了,更多新的应用场景被开发出来,导致总消耗量反而暴增。
今天,AI领域正在发生一模一样的事情。当谷歌、DeepSeek推出更便宜、更快的AI模型时,AI的总调用量(Token消耗量)出现了爆发式增长。便宜了,开发者们开始构建更复杂的AI代理循环,执行更高频的自动化任务。低价正在解锁全新的、过去想都不敢想的应用场景。
而这种疯狂增长的需求,最终都指向了同一个地方:算力。从2023年开始,以英伟达GPU为代表的算力资源就成了硬通货,全球都缺货。2024年对生成式AI的投资高达339亿美元,是2022年的8.5倍还多。这种硬件的稀缺,甚至引发了国家和科技巨头之间为了保障”算力主权”的地缘政治博弈。
到了今天,AI已经不再是一个新奇的、可有可无的附加品了。它正在成为我们社会和经济肌体中一个不可或缺的、无处不在的组成部分——从一个让我们惊叹的”工具奇观”,彻底演变成了我们社会运转的内在驱动力,一个”社会器官”。
总结
回顾从2022年底到2025年这三年的旅程,我们目睹的并非一次简单的技术升级,而是一场席卷人类社会每个层面的认知范式革命。
AI从一个令人惊奇的”对话者”,迅速进化为能够自主规划与执行的”行动者”;从处理文本的”专家”,成长为试图理解与模拟物理世界的”探索者”;从一个提高个人效率的”工具”,蜕变为驱动组织变革、产业重构乃至地缘博弈的”基础设施”。
技术层面,我们见证了核心范式从”下一个词预测”到”逻辑推理”,再到”世界模拟”的跃迁;产业格局上,我们看到了开源与闭源两条路径的分化与融合,以及”高智商”与”高通量”应用场景的精细分割;经济逻辑上,我们亲历了由”效率工具”到”生产力基础设施”的转变,以及随之而来的”杰文斯悖论”在算力需求上的真实上演。
然而,这场革命远未结束,它只是刚刚拉开了序幕。我们站在一个临界点上:智能体网络初具雏形,“世界模型”的曙光已然显现,AI作为”社会器官”的形态正在形成。但对齐(Alignment)的终极难题、认知依赖的长期风险、算力与能源的可持续性挑战、以及全球协同治理的迫切需求,所有这些深水区的暗礁都已浮现水面。
唯一可以确定的是:那个没有AI深度介入的世界,我们已经回不去了。
这三年,是AI”闯入”世界旧有文明的一段序曲。而接下来,才是人类与AI共同”塑造”世界正剧的开始。