Token 经济——当智能第一次被切成可计费的单位

这篇是《科技慢半拍》EP130：Token 经济｜AI 时代的计费革命的文字稿整理版，把节目里来不及展开的分词器对比、朗道尔原理、电信结算史与算力券政策一并补齐。

楔子：一只昂贵的小龙虾

最近大家可能都在”养”一只叫做 OpenClaw 的 AI 小龙虾。它能 7×24 小时不间断地帮你处理邮件、写代码、分析市场。但很多人很快就发现一个尴尬的问题：小龙虾本身不贵，甚至免费，可在永动机一样的工作模式下，喂给它的”饲料”——也就是 Token 算力——实在太贵了。

只要它在运行，你的计费表就在疯狂地转。一直思考，一直工作，也在一直消耗算力。这恰恰是 AI 智能体最典型的特征。

由此引出一个让人困惑、甚至有点不爽的问题：

互联网时代我们用软件，付的是功能 license 费用，从来不需要为软件跑在哪个服务器上、消耗了多少 CPU 算力去操心——厂商通过规模效应自己消化了这部分成本。就像在餐厅吃饭，付的是菜钱，没人会让你为后厨炒这道菜用了多少水电再单独付一笔。

可到了 AI 时代，这个规矩变了。我们不仅要为 AI 服务付费，还要直接承担它底层消耗的算力成本。AI 服务的收费逻辑，发生了一次彻底的底层倒置。

“Token 不是 AI 学会的单词，而是人类为了衡量智力成本，强行在数字世界里划出的刻度。”

英伟达 CEO 黄仁勋最近提了一个很震撼的观点：未来的数据中心不再是存储文件的”仓库”，而是生产 Token 的”工厂”。他是卖铲子的，当然会说金子值钱。

但奇特的现象就在 2026 年 3 月出现了：一方面，技术进步让每百万 Token 的单价从两年前的 30 美金跌到 0.2 美金，降幅超过 90%；另一方面，阿里云、腾讯云这些云厂商却反过来对 AI 算力服务大幅涨价。当云厂商集体调价的时候，他们实际上是在做一场无声的筛选：只有那些能让 AI 产生高溢价、高利润的应用——金融决策、医疗诊断——才配得上这种昂贵的”饲料”。

这背后揭示了一件事：技术优化让生产单个 Token 的成本变便宜，但整个社会对 Token 的总需求量，正在以指数级爆炸式增长。最底层的电力、芯片和算力资源，反而成了稀缺品。谁控制了 Token 的生产速度和定价权，谁就握住了 AI 时代的”电网”开关。

这篇文章把节目里讨论的四个问题摊开来讲：到底什么是 Token？为什么用 Token 计费？这种计费方式合理吗？以及，Token 经济学的底层基础到底立得住吗？

一、什么是 Token

在 AI 神经网络里，它并不认识我们人类的文字、代码，更别提视频里的像素。所有这些信息都必须先被切割成一个个基础单位——这就是 Token，现在更标准的中文翻译是”词元”，之前也常被翻译成”令牌”。

你可以把它想象成 AI 世界里的基础能源计量单位。任何复杂的想法和创造，都得先拆解成这些标准化的 Token，AI 才能理解和拼装。

随着 AI 开始大规模生成和处理信息，传统的数据中心也在改变。它们的核心任务不再是静态存储数据，而是动态地、持续地吞吐海量数据，消耗巨大的电力，源源不断地生产 AI 智能——也就是输出 Token。

到 2026 年 2 月，光是中国市场，AI 模型的周调用 Token 量就突破了 5 万亿。这个数字太大，说点切身感受的：在中文语境下，让 AI 读或写一个汉字，大概要花掉 1.5 个 Token。而且 AI 每次处理的可不只是你问的这句话，还包含之前的对话上下文，以及你传给它的参考文件。这种 Token 消耗已经像水电燃气和上网费一样，变成了持续性、基础性的开销。

AI 的生产力第一次被精确地量化了。我们讨论一个 AI 模型强不强，本质上就是在讨论它生成和处理 Token 的速度、质量和效率。当数据中心变成智能工厂，Token 就成了衡量一个国家或企业”智能产能”的核心指标。

分词器：守在门口的首席翻译官

Token 是怎样被产出的？就像电由发电机产生，Token 由**分词器（Tokenizer）**产生。

你可以把分词器想象成一个守在 AI 神经网络门口的首席翻译官。它的工作，是把人类的语言翻译成 AI 能听懂的密码——Token ID。

目前市面上有两种主流方法：

BPE（Byte-Pair Encoding）——GPT、Llama、Mistral 系列采用的算法。它在海量文本里不断找出最常一起出现的字符组合，比如”人工智能”这四个字总是一起出现，那就把它打包成一个 Token，下次再见到就直接处理这个包。它的好处是永远不会遇到不认识的词——最差的情况也能拆成最基础的字节。

SentencePiece——Google Gemini 用的方法。它把所有文本都看成原始的字节流，特别适合处理中文、日文、韩文这种没有天然空格分隔的语言。

这两种”翻译”策略，直接导致了不同模型在处理非英语语言时，有着截然不同的”母语感”。

分词器设计得好不好，直接决定了模型的”视野”和”语感”。一个高效的分词器，能用更少的 Token 压缩进更多信息——就像高级翻译能用最凝练的语言传达最丰富的意思。这不仅仅是技术问题，它决定了模型在推理的时候，是机械地”读字”，还是真正地”读意”。

更有趣的是上下文窗口的隐藏逻辑。你常听某个模型支持 128k、200k 甚至更长的上下文——但这个数字会骗人。研究表明，Qwen 2.5 处理中文时的语义密度是早期 GPT-4 的 2.59 倍，DeepSeek 是 GPT-4 的 2.37 倍。这意味着：虽然两者标称都是 128k，但 Qwen 实际能”读进去”的中文有效信息量，相当于 GPT-4 处理 331k Token 才能达到的内容量。

处理一篇长篇报告或法律文件时，这就决定了谁能看到全局、谁只能管中窥豹。

隐形的”语言税”

这种效率差异看似只是技术细节，但和钱挂钩之后，事情就不简单了。它在不同语言之间划出了一条隐形的经济鸿沟。

在英文环境下，各家的分词效率其实差不多：1 个英文单词大概对应 1.3 个 Token，差距非常小。但切换到中文语境，差距就刺眼起来。汉字本身的信息密度高，低效的分词器会产生严重的”Token 税”——为了表达同样的意思，说中文的人要比讲英文的人花更多的 Token。

举个例子：表达 1000 个汉字的内容，Qwen 2.5 只需要约 650 个 Token；早期国外模型可能需要多出一倍以上。GPT-4o 通过极大扩充词汇表，把这个比例追赶到了 0.8 左右——差距在缩小，但国产模型在中文压缩率上依然有强势优势。

这种差异反映在成本上是惊人的：在按百万 Token 计费的模式下，处理同样一段中文内容，使用 Qwen 的实际费用可能比 Claude 3.5 低 70% 以上——这还没算 Qwen 本身单价就更便宜。

如果中文使用者天然就要比英文使用者多交一倍 Token 税，那么在需要处理海量文本的行业——法律、医疗、金融分析、大规模知识库检索——中国企业的运营成本就会面临巨大压力。

往深处看，Token 效率还直接影响硬件表现。更高效的分词，意味着同样大小的显存里能缓存更多信息，也就能支持更高的并发请求或更长的对话历史。这已经不是软件层面的优化，而是直接转化成了实打实的算力利用率。

如果未来 Token 真的成为全球通用的智能等价物，低效率的编码方式可能会让整个语言文化在智能时代的竞争力被无形削弱。

分词器的进化方向

未来的分词器竞争已经进入”深度语义优化”的新阶段，三个方向：

算法协同化——未来的分词器不再是简单地合并字符，它会变得更”懂结构”。聊天格式、角色指令，甚至模型的思考过程，都会作为原生的 Token 来处理。以前的翻译只会逐字逐句地翻；未来的翻译不仅懂词句，还懂对话的语境、语气和目的。

动态领域自适应——给 AI 准备一个可以随时更换的”专业词典补丁”。处理医疗报告时加载医疗词典，让它用最少的 Token 理解最专业的术语；看法律文件时换上法律词典。在垂直行业里，实现极致压缩。

多模态原生分词——Gemini 已经在尝试，目标是把视频、音频、图像统一转化成一种固定速率的 Token 流。到那时，分词器进化成真正的”万物编码器”。AI 对物理世界的理解，将不再有跨模态的”翻译损耗”，而是真正的原生理解。

理解了什么是 Token，也就能看清所谓的 Token 计费到底在计算什么了。

二、为什么要用 Token 计费

接下来聊聊为什么各家厂商都用 Token 计费。

厂商会告诉你：因为大模型太贵了。 一个像 GPT-4 这样的模型，光是训练成本就可能高达 1 亿美金。它每一次回答你的问题，都不是凭空出现，而是需要消耗巨大的电力和显存资源——背后是 GPU 算力消耗和实打实的电费账单。

为了能活下去，AI 服务商选择了一种非常直接的模式，听上去有点像在高级餐厅按克卖和牛肉。他们需要精准测量你到底消耗了多少资源——你问一个需要处理 10 万 Token 的复杂问题，消耗的计算资源和电费，通常就是处理 1 万 Token 问题的十倍。Token 具备这种等比例可衡量性。

从技术层面看，这种”按量计费”是一种极致的理性。它打破了传统会员制那种”大锅饭”的逻辑——轻度用户不再需要补贴重度用户。对 AI 服务商来说，在 AI 推理成本还是一个巨大且动态变化的变量时，这可能是最稳妥的生存策略。

但极致理性对个人用户也许还好，到了商业世界就显得异常严峻。

对创业公司来说，Token 成本不是一张账单，可能直接就是一条生死线。听过开发者抱怨：为开发一个 AI 应用，烧了一万美金 Token，结果产品连上线门槛都还没摸到。AI 的每一个”思考”动作，都是明码标价的。

这就引发了”算力转嫁”的争议。厂商通过这种看似透明的计费方式，实际上是把自己高昂的研发风险和动态的运营成本，简单粗暴地甩给了用户。今天市场上能走出来的 AI 创业公司，背后都有”由于 Token 暴增，每天烧掉几万美元”的故事。这让 AI 创业变成了一场资本游戏，而不只是创意和技术的竞争。

那是不是未来算力价格下来了，厂商就不会按 Token 计费了？我想是不会的。一旦商业模式形成，厂商多了一种赚钱路径，他们自己根本没有放弃的意愿。除非最后变成由政府提供的公共基础设施，实现统一定价和管理——至少 AI 距离这个目标还很遥远。

三、Token 是新电力，还是新货币？

既然 Token 背后承载的是如此真实、昂贵的物理成本，它能不能更进一步，成为数字经济时代的”新电力”，甚至”新货币”呢？

朗道尔原理：Token 的物理底色

要回答这个问题，得从物理学层面看看 Token 到底是什么。你每次向 AI 提问，它生成 Token 的过程在物理上对应着神经网络的一次前向传播——这意味着在数据中心的某个角落，一块硅片上的电子正在进行跃迁，伴随热能的散发，以及对高带宽内存（HBM）的高速读写。

物理学上有一条朗道尔原理（Landauer’s Principle）。它由物理学家 Rolf Landauer 在 1961 年提出，揭示了信息世界与物理世界之间的本质联系：每当你”读写”1 比特的信息，就必须消耗一定的能量，并且产生热量。 每一个 Token 的生产和传输，背后必然带来物理成本，Token 的定价最终也需要回到能源的定价基础上。

所以 Token 并不是什么虚无缥缈的代码，它是资源消耗的物理凭证——非常像电力系统里的”千瓦时”，也就是”度”。英伟达推出 Vera Rubin 这样的新架构，拼命优化的就是想方设法降低生成每一个 Token 的物理成本。

这也解释了为什么不同模型的 Token 价格差异那么大。像采用混合专家模型（MoE）架构的 DeepSeek V3，虽然总参数高达 6710 亿，但每次推理只激活其中一小部分（约 370 亿）。这就好比一台 V12 发动机的汽车，在市区里只用两个缸在跑。 这种”精益生产”模式，直接导致它的 Token 价格剧烈下降，对传统稠密模型形成降维打击。

Token 离货币还差五件事

Token 看作电力的比喻很贴切，但马上就有问题了：全世界的电表读数标准是一样的，一度电就是一度电。全世界的 Token，真的等价吗？

答案显然是否定的。如果我们用货币的标准来衡量 Token，会发现它在每一个维度上都存在根本性缺陷。

货币作为”一般等价物”有五大特征：

同质性——每一单位完全等价
可分割性——可以无损分割成更小单位
稀缺性与供给可控性——总量可预测、可控制
普遍可接受性——任何场景、任何人都愿意接受
价值稳定性——在时间维度上价值相对稳定

Token 在每一条上都失败：

严重缺乏同质性——同样是”1 个 Token”，Qwen 里能表达的语义信息量是 GPT-4 的 2.59 倍。这就像”1 升水”和”1 升汽油”都叫”1 升”，却根本无法互换
供给不受统一控制——每家厂商可以随意改变 Tokenizer 规则、定价策略，相当于每家银行都能自己印钞，且印钞标准各不相同
缺乏普遍可接受性——OpenAI 的 Token 不能在 Anthropic 消费，Qwen 的 Token 不能拿去用 GPT。货币必须是”跨主体”的，今天的 Token 是严格”平台内”的
价值极不稳定——模型升级、竞争压价、算力成本变化都会导致 Token 购买力剧烈波动
没有物理或法律锚定——货币最终有国家信用或贵金属背书。Token 的”价值”完全依附于某一具体模型的能力，模型消亡，Token 归零

Token 的本质是一个”计量单位”，而不是一个”流通媒介”。

它就像不同公司的客户积分，虽然都能用来兑换，但你不可能拿着 OpenAI 的 Token 去 Anthropic 的模型里消费。Token 是一把尺子，而不是一枚硬币；你可以用尺子衡量万物，但没人会用尺子去买面包。

也许有人会反驳：未来有没有可能实现一种”标准算力单元”的统一定价？参考一下电信行业。手机通话的”分钟数”早就有统计标准，但”分钟”本身没有成为统一货币。因为货币的等价性背后需要的是国家信用或超主权机构的法律背书与信用锚定。Token 的价值完全依附于某一具体模型的能力——一旦这个模型被市场淘汰，对应的 Token 价值就瞬间归零。这种”资产脆弱性”决定了它永远只能是平台内部的代金券。

黑盒计费：谁来当”检验员”？

Token 既然只是一个充满变数的计费单位，在复杂的商业交易中就有可能有人以次充好、滥竽充数、赚取差价。

你调用模型 API，厂商告诉你消耗了多少 Token，你就得付多少钱。你根本无法验证这个数字是不是真实的，也无法知道其中有多少是因为模型自己”发疯”——所谓的”模型幻觉”——产生大量无意义重复输出的”无效费用”。

最近还有更微妙的现象。Cursor 之所以好用，是因为它使用了最强的编码大模型 Claude；但他们最新的 Composer 2 宣传是基于一个开源基座构建，其实背后是 Kimi K2.5——而 Cursor 的人从没提过。我们不是说 Kimi 模型有问题，而是厂商在偷偷换掉背后的模型，如果自己不说，用户是很难发现的。可你当初购买它，是因为那个更好的模型。下游应用开发者非常被动。

那么在这个行业里，应当谁来充当公正的”检验员”？

要回答这个问题，得回到历史里寻找答案。

四、电信史给我们的对照样本

目前的 AI 算力市场，像极了 20 世纪初的电信行业。

那时候，AT&T 这样的巨头通过拒绝网络互联互通，建立起了垄断地位。今天的 AI 大厂，就像一个个独立的电信孤岛，各自拥有独立的 API、独立的账户系统，以及一个外人看不懂的计费黑盒。

当一个行业的影响力大到成为社会公共基础设施的时候，独立的第三方审计就必然会出现。1913 年的《金斯伯里承诺》（Kingsbury Commitment）打破了 AT&T 的垄断，开启了电信互联的时代。1934 年的《通信法》确立了联邦与州政府的分级监管框架，并建立了一套复杂的”结算机制”。这种结算逻辑在互联网时代演变为”对等互联”（Peering）与”转接”（Transit）两种模式。

今天，在 AI 领域，我们已经看到类似的苗头。像 LangSmith 或 Helicone 这样的平台正在扮演”电子电表”的角色——它们通过提供独立网关，拦截你和 AI 模型之间的所有 API 请求，实时监控 Token 的真实消耗量、API 延迟（P50/P90/P99 分布），甚至帮你识别出特别”烧钱”的提示词模式。

这只是开始。未来的算力审计将演变为一个更复杂的综合性中介服务，至少分三个维度：

资源利用率审计——验证数据中心宣称的算力输出与实际电力消耗、PUE 值是否匹配
计费透明度审计——通过独立网关拦截并分析 API 请求，识别异常 Token 消耗
合规与安全审计——验证模型是否包含敏感能力，推理节点的地理位置是否符合数据主权要求

这就好比对公共设施的管理，从最早简单的查水表，进化到了后来复杂的碳排放权审计。任何黑盒计费的终点，不是垄断，就是监管；而算力透明化，是 AI 走向普惠的唯一路径。

五、Token 经济的底层基础

既然今天的 Token 计量还不能作为电力或货币一样的一般等价物，那么 AI 算力到底该怎么计费？这件事正在从一个商业问题，升级为一场国家级的战略博弈。

算力孤岛与”轨距战争”

今天这种 Token 计费混乱，导致了一个非常尴尬的局面。一家 AI 创业公司可能一开始用了某家云服务商的模型，后来发现另一家更好、更便宜想换——结果发现，重新修改代码、核算成本，这一套折腾下来的迁移成本，有时甚至比模型本身的训练费用还要高。

混乱的背后，本质上是”算力孤岛”。没有一个统一的度量衡，来自不同地方、不同厂商的算力，就没办法像自来水或电一样自由流通和交换。这对企业来说，不仅仅是贵的问题，更致命的是”锁定效应”——你一旦选了某个云厂商，就很容易因为他们复杂的计费方式和独特的技术架构被锁死，彻底失去议价的权利和选择的灵活性。

可以参考一下历史。19 世纪铁路建设的初期，发生过一场著名的”轨距战争”：不同的铁路公司用不同的铁轨宽度，结果货物运到边境必须全部卸下来换车，效率极低。

今天，中国的国家数据局和工信部密集出台各种技术标准草案，就是在为 AI 时代铺设统一的”标准轨距”。只有把 GPU 的运算能力、显存的带宽、服务器之间的数据传输速度这些硬指标都统一成一个标准，跨地域的算力调度——比如”东数西算”——才能真正实现价值上的对等交换。

只有实现算力标准化，才能让算力变得像电力一样。当你把电器插到插座上时，你根本不需要关心这个电是来自三峡的水电还是内蒙古的风电，你只需要知道：它能用，而且价格统一透明。

算力券：政府投下的锚点

为了解决”东部的企业算不起、西部的算力用不掉”的供需矛盾，中国很多地方政府推出了一种新工具——算力券。

它本质上是一种定向的财政补贴凭证：

北京经开区：每年发放 1 亿元算力券。国产人工智能算力单次抵扣最高 40%，非国产 30%，单家企业每年最高补贴 2000 万元
湖南省：每年 1 亿元规模，补贴比例不超过年度算力总支出的 30%，支持期长达三年
贵州省：针对”东数西算”枢纽节点优势，向全国企业发放算力券，用于抵扣当地算力服务或数据交易产品费用

这不只是发钱那么简单。它起到了一个成本感知调节器的作用，通过精准的财政杠杆，把 AI 创新的门槛拉低 20% 到 40%。更重要的是，它带有明显的产业导向——国产算力 40% 抵扣、非国产 30%，这中间 10% 的息差，是用市场化手段直接引导和激励企业去优先使用、适配国产 AI 芯片和算力平台。

算力券背后还有一个核销过程。企业想拿到补贴，需要通过第三方审计机构的严格审查，对算力支出、经营活动进行全面审计。这个过程在无形之中，建立起了一套国家级”算力审计”体系的雏形。

长远来看，算力券给行业留下的最大遗产，可能不是那几个亿的补贴，而是这套”政府级算力审计”的流程。它解决了一个最核心的信任问题：政府怎么知道你申请补贴买的算力，是真的用在研发上，而不是被你转手倒卖了？

算力券不只是定向补贴，它是政府在混乱的算力市场中投下的一个”锚点”。 通过审计，把算力这种看不见摸不着的无形资源，转化成了一种可信、可追踪的资产。当一种资源变得可审计、可追踪的时候，它就具备了成为”金融资产”的潜力，为未来建立合法的”第三方算力交易所”奠定了监管基础。

思维链与”按结果计费”

即便政府帮你付了账单，技术本身也在飞速进化。我们刚刚建立起来的”按量计费”模式，很快又遇到了新的挑战：AI 开始学会”深度思考”，逐渐变为智能体。

这意味着模型在给你一个最终答案之前，会在背后进行大量的”思考”——产生数千个我们看不见的隐藏”思维链”Token。OpenAI 的 o1/o3-mini、DeepSeek R1 等推理模型在生成最终答案前，往往需要产生数千个中间思维 Token。

如果还按传统的”用了多少 Token 就付多少钱”来计费，用户就会陷入一个尴尬的悖论：模型思考得越深入、越严谨，为了保证答案正确性而生成的中间步骤越多，你付的钱反而越多。 这就好比打出租车，司机为了多收你的钱，故意选择最堵、最绕远的路。这显然不合理。

技术变革正在倒逼整个行业的定价模型从”资源导向”转向**“价值导向”**。第二代定价模型——基于结果的计费（Outcome-based Pricing）——正在出现：

客服机器人——按”决议数（Resolutions）“收费，而不是按对话轮数。Intercom 的 Fin AI 代理每成功解决一个支持工单收 $0.99，任务失败或需要人工介入则不收费
安全/欺诈检测——如 Riskified 按”免欺诈交易额”百分比计费
销售自动化——按”成功预约的会议”或”合格线索”计费

为了让价值定价可落地，厂商引入了质量阈值（Quality Gates）：只有在用户确认满意或 72 小时内未重新提问的情况下，才会被计入收费结果。这种机制把 Token 的不透明性转化成了清晰的 ROI 承诺，让用户觉得”物有所值”。

算力主权与结算货币

这又会引出一个更具争议性的话题：算力的”货币化”与地缘政治。

美国已经有人在构想一个叫做”算力结算美元化”的框架，建议未来美国在出口高端 AI 芯片时，可以把许可和”使用美元结算 AI 服务”这件事挂钩。

虽然我们还不能很清晰地给 AI 算力定价，但已经看到一种新趋势：谁掌握了这种资源的定价权和结算货币，谁就掌握了未来整个数字贸易时代的金融霸权。

一个看似微不足道的技术计费标准，最终就这样从一张技术协议，演变成了国际贸易棋盘上的一个关键筹码。

结语：把刻度交给谁？

回顾这一整套逻辑，其实是沿着四层往下走的：

第一层：从直观的不适感出发——为什么 AI 时代我们要为底层算力按量买单
第二层：把 Token 拆开——它不是抽象概念，而是 AI 处理语言、代码、图像时最基础的计量单位
第三层：为什么 AI 服务商会选择 Token 计费，以及这种计费背后对应的真实物理成本
第四层：Token 为什么还不是电力、更不是货币，以及它可能如何走向标准化、审计化、甚至公共基础设施

我们其实正好处在一个极其罕见的时刻：一个全新的、最重要的生产力要素——“AI 算力”——正在努力寻找属于它自己的”度量衡”。

过去我们用黄金、用原油、用美元锚定这个世界的价值；今天，我们正试图用”算力”重新定义一切。在不远的未来，你每一次调用 AI 进行思考、创作，背后可能都有一套极其精密的、国家级甚至全球性的金融与技术网络在为你实时结算。

今天我们想说的，其实不是 Token 贵不贵，更不是是否应该转嫁给消费者。而是一个更大的问题：当”智能”第一次被切成可以计量、可以计费、可以交易的单位之后，我们该用什么样的制度、标准和价格逻辑去承接它。

Token 今天像一把尺子，而不是一枚硬币。它已经足够重要，可以衡量 AI 时代的智力消耗，却还远远没有成熟到成为统一的价值载体。

谁定义 Token，谁定价算力，谁建立审计和结算规则，谁就有可能掌握下一代数字基础设施的话语权。

今天围绕 Token 的争论，并不只是一次技术计费方式的变化，而是整个社会第一次认真学习——应该如何为”机器思考”这件事定价。