从高低维度出发,重新理解人工智能
我们看到的世界是真实的吗?从柏拉图洞穴、笛卡尔怀疑论,到维度灾难、《三体》的降维打击,再到 Transformer 的向量空间——这篇文章换一个视角,用"维度"这把钥匙重新打开计算机和人工智能的底层逻辑。
ai · dimensions · machine-learning · computer-science · philosophy
这篇是 《科技慢半拍》EP70:从高低维度出发,重新理解人工智能 的文字稿整理版,把节目里来不及展开的维度理论、计算机历史和 AI 原理一并补齐。
楔子:我们看到的是真实世界吗?
先问你一个问题:我们看到的是真实的世界吗?
大多数人的直觉回答是”不是”——但理由是什么?这里有三种理解方式,今天我们聊的是第三种,也是最少被讨论、但或许最接近本质的那一种。
第一种理解是哲学层面的不确定性。柏拉图在《理想国》里讲过一个”洞穴寓言”:一群囚徒从小被锁在地下洞穴里,只能看到墙上的影子,他们把这些影子当作真实世界。有一天,其中一个囚徒逃了出去,看到了阳光和真实的事物——但当他回来告诉同伴时,却被当成疯子。
我们每个人,某种程度上都是那个只能看到影子的囚徒。
第二种理解是笛卡尔的主观哲学。《第一哲学沉思录》里,他试图怀疑一切——外部世界、自己的身体——直到发现一件无法被怀疑的事:怀疑本身。“我思故我在”(Cogito, ergo sum)。他的结论是,我们所有对世界的认知,根基都是主观意识,而不是客观实在。休谟也有类似的观点:人类心灵的一切素材,无一例外都来自感觉经验。
第三种理解是今天的主角:维度。
我们看到的世界之所以不是”真实”的,不是因为它是幻觉,也不是因为我们在怀疑,而是因为:真实世界是高维的,而我们所能感知的,始终只是它在低维空间里的投影。
维度是什么?
在数学和物理上,维度指的是描述一个点的位置所需要的独立参数数量,也就是这个点的自由度。
我们生活在三维物理空间:上下、左右、前后。任何方向的运动都可以分解成这三个维度的组合。如果加上时间,就是爱因斯坦的四维时空——但时间维度特殊,我们只能朝一个方向”移动”,不能像在空间里一样自由游走。
刘慈欣在《三体》里把维度概念玩到了极致:
- 智子:三体人将质子从 11 维展开成二维平面,在上面刻蚀电路,再折叠回去——一颗普通质子变成了携带超级 AI 的微型计算机。维度折叠意味着信息密度可以无限压缩。
- 四维宇宙:《死神永生》里,“蓝色空间号”上的人进入第四维宇宙——三维世界里所有封闭和被遮挡的东西,在四维视野中都平行并列出来。每个容器的内部、每个人的内脏,都一览无余,“无穷层次的暴露并列中,便显露出无限的细节”。
- 降维打击:二向箔将太阳系从三维压缩成二维——所有物质都成为一幅原子级精度的平面展开图。这是最彻底的破坏,因为从高维到低维是不可逆的,信息永久损失。
从《三体》这些意象出发,可以理解两个关键概念:
降维展示(Dimensionality Reduction)
高维世界可以投影到低维空间里展示——就像把三维地球画到二维地图上。这个过程叫做降维展示,目标是在低维表达里尽量保留高维的信息。
但保留始终是不完整的。世界地图的例子很直观:赤道附近失真小,越接近南北极失真越大。俄罗斯在许多世界地图上看起来比非洲大得多,但实际上非洲面积是俄罗斯的约 1.7 倍。这就是投影变形——高维信息在低维展示时不可避免的失真。
维度灾难(Curse of Dimensionality)
把低维信息还原回高维,比降维难得多——甚至在很多情况下根本做不到。
这就是维度灾难:当我们试图用低维指标理解高维现实时,总会感到失真和偏差。经济学家预测总是不准,不是因为他们不够聪明,而是因为经济运行是高维的,而 GDP、CPI、利率这些指标是低维的——一张地图,永远不等于地图上的那片土地。
用维度视角重新看世界
有了这个框架,很多日常困惑都有了新的解释。
世界地图上的失真:投影变形是数学上的必然,球面无法展开成平面而不失真。地图是一种降维展示,你看到的从来不是”真实”的地球表面。
为什么读了书还是不懂:语言和文字是高维思想在低维空间的投影。维特根斯坦说”语言是思想的边界”——对。但语言不等于思想本身,同一本书,不同的人读出来的内容差别极大,因为每个人在”还原高维”时用的是自己的认知框架,填充方式各不相同。
为什么社交媒体让人割裂:每个人都活在算法为自己构建的低维信息茧房里——美国大选中支持哈里斯和支持特朗普的选民之间无法理解彼此,本质上是两个维度不同的世界在互相投影,而且彼此都看不到对方投影的那个高维。
物理学的演化就是不断升维:牛顿力学是低速弱引力条件下的低维近似,爱因斯坦的相对论揭示了更高维度的时空结构,量子力学打开了微观世界的另一扇门——而 M 理论试图把四种基本力统一为一种高维度的力在低维空间的不同展现。科学史,就是人类不断升维认知的历史。
在低维世界里,我们无法”进入”高维——就像二维平面国里的正方形,无法看到三维球体的内部。但有一种方法可以间接感知高维:观察高维物体与低维空间产生交集时留下的截面。三维球体穿过二维平面,从平面上看,是一个点扩展成圆再收缩的过程。我们在低维叠加多个投影,拼凑出高维的轮廓。
计算机:从 0 和 1 出发的升维工程
计算机的诞生和演化,本质上就是一部”从最低维度出发、不断升维”的历史。
计算机硬件的核心是电路,而电路只有两种状态:通电(1)和断电(0)。这是人类能找到的最低维度的表达方式——只有两个可能,没有中间状态,没有模糊。
但从这两个状态出发,计算机科学家们像搭建金字塔一样,一层一层地升维:
- 逻辑门:与门、或门、非门——从 0 和 1 实现基本逻辑操作
- 算术运算:加法器、比较器——组合逻辑实现计算
- 布尔代数:if-else、大于小于——有了条件分支的控制逻辑
- 编码系统:ASCII、Unicode(文字)、浮点数(数字)、JPEG(图像)、MP3(音频)——0 和 1 开始表达真实世界的多种信息类型
- 程序和操作系统:一系列指令,告诉计算机如何一步步操作
- 应用和网络:数字化的一切,互联网将计算维度延伸到全球
每一层都是一次升维——用低维的东西实现更高维的表达,让机器越来越”接近”我们高维的真实世界。
但即便到了这里,计算机在处理真实世界数据时仍然面临维度灾难:照片、语音、视频——这些信号天然是高维的,计算机需要对它们进行降维处理才能存储和运算,而降维必然带来信息损失。这就是为什么你把 JPEG 文件放大到一定比例,就会看到模糊的像素块。
人工智能:比传统计算机更高维的表达
如果说传统计算机的核心是”从 0 和 1 出发,逐步构建数字世界”,那么人工智能的核心是:用比传统计算机更高维的方式,来理解和表达人类的智慧。
这种升维体现在多个层次:
硬件层:从 CPU 到 GPU。CPU 是串行的,一次处理一个任务;GPU 是并行的,可以同时处理数万个任务。自然语言处理需要同时考虑大量词语之间的关系,GPU 的并行架构天然更适合。这是维度的扩展。
数据层:从二维表到向量存储。传统数据库用行和列的二维表格存储数据,每个字段是一个独立的属性。AI 领域的数据用向量存储——每个”数据点”是高维空间里的一个点,相近的点在空间里距离近,相似的概念在向量空间里彼此靠近。这是信息表达维度的跃升。
算法层:从规则到神经网络。传统机器学习依赖人工定义特征(特征工程),程序员需要手动告诉计算机哪些特征重要;深度学习通过多层神经网络自动学习特征,从像素、声音波形这样的低层次信息,逐步提取出物体、语义这样的高层次特征。层数越多,“维度”越高,能表达的关系越复杂。
Transformer 的工作原理:一次具体的升维之旅
以翻译”I love cats.”为例,看 Transformer 是怎么工作的:
第一步:词嵌入(Word Embedding)
模型不能直接处理文字,先把每个词映射到一个高维向量。如果模型使用 768 维的向量,那”love”就是 768 维空间里的一个点。这些向量不是随机的——“love”和”like”在语义上接近,它们的向量在空间里也彼此靠近。
这是从低维(一个词)到高维(768 维向量)的映射——把简单的文字符号,扩展成能携带语义信息的高维表达。
第二步:自注意力机制(Self-Attention)
有了每个词的向量,Transformer 用自注意力机制计算词与词之间的关系权重:
- “I”和”love”是主谓关系
- “love”和”cats”是动宾关系
多头注意力机制(Multi-Head Attention)让模型从多个”角度”同时看句子——一个注意力头关注语法结构,另一个关注语义关联,还有一个关注上下文语境。这些”角度”综合起来,形成对整个句子更全面的理解。
第三步:概率分布输出
翻译不是”查字典”,而是在每一步计算所有可能翻译的概率分布,选择概率最高的词:
- “爱” → 85%
- “喜欢” → 10%
- 其他 → 5%
最终输出”我爱猫”。
这个基于概率的生成过程,解释了为什么大模型有时候会给出不同的答案——因为它本质上是在一个概率分布中采样,而不是查找一个固定答案。
大模型是对人类知识的”有损压缩”
特德·姜在 2023 年写过一篇精彩的文章:《ChatGPT 是网上所有文本的模糊图像》。他的比喻非常准确:
大模型用互联网上的海量文本训练,把所有知识压缩进模型的权重参数里,就像 JPEG 对图像进行有损压缩。当你向模型提问,它通过”预测下一个 token”的方式来”解压”——就像 JPEG 解压时用周围像素的均值插值还原缺失的像素。
大模型的”幻觉”(Hallucination),本质上就是这个有损压缩过程中的失真:模型在努力插值、努力还原,但它手头的信息不足,于是”猜”了一个听起来合理但实际上不准确的答案。这不是恶意撒谎,而是降维灾难的必然产物。
辛顿(Geoffrey Hinton)对此有一个重要的反驳:许多人认为大模型不过是在拼凑人类已有的知识,但他认为大模型能够理解知识的本质结构,并把这种理解压缩进了权重参数里。他的例子:如果你问 GPT-4”为什么堆肥堆和原子弹类似”,它会告诉你——它们都是链式反应,虽然能量和时间尺度完全不同。这种跨领域的类比和结构识别,不是简单的”拼凑”能做到的。
让 AI 更接近高维智能的两条路
当前的 AI 对于真实的人类智能来说,仍然是低维的。如何让它更接近高维?有两种思路:
思路一:更好的降维——减少信息损失
训练数据的质量和多样性决定了”压缩”的忠实程度。如果训练数据的维度更高、涵盖的模式更丰富,模型就能学到更精准的内部表示。
机器学习里的降维算法(PCA、LDA、t-SNE)也是在解决同样的问题:如何在低维保留高维数据最重要的信息,同时减少噪声和冗余。
多模态大模型走的正是这条路——整合图像、视频、声音、甚至机器人操作的物理反馈,让模型接触到比纯文本更高维的信息源。一个能”看到”物体、“操作”物体的 AI,对物理世界的理解会比一个只读文字的 AI 高出一个维度。
思路二:动态升维——在交互中实时提升
高维物体与低维空间的交集,会随时间变化而呈现不同的截面。三维球体穿过二维平面,看到的是不断变化的圆。这启发了另一个思路:如果让 AI 在推理过程中动态学习,每次交互都成为一次新的”截面观察”,AI 就能在使用过程中持续积累对高维世界的理解。
OpenAI 的 o1 模型走的就是这条路——它在推理过程中主动学习,而不是像传统模型那样在训练后就”冻结”。每次交互不再只是查询,而是对模型的微调。推理变成了动态的、不断演化的过程。
结语:升维的终点在哪里?
《三体》里,三体人之间的交流是”思想透明”的——没有语言这个中间层,没有从高维思想到低维文字的降维过程,信息近乎无损地传递。这在人类中是不可能实现的:我们每次交流,都要经历”思想→语言→理解”这个有损编码和解码的过程。
如果某一天,AI 大模型能够帮助人类实现更接近无损的知识共享——不只是提供答案,而是传递思维过程本身——那才是 AGI 真正的价值所在。不是 AI 自己有多聪明,而是 AI 帮助人与人之间的知识传播效率跃升一个维度。
从莱布尼兹的普遍计算设想,到当下的大模型和多模态,我们在逼近一个神秘的边界——对世界的全面认知,或许不只来自算法,更来自人类与机器在复杂维度中的共同演化与创造。
传统的计算机用沙子(硅)和真假(0和1)出发,层层升维,打造出数字世界。人工智能用更高维的方式接近人类智慧。而人类——始终在低维的投影里,努力拼凑那个更真实的高维世界。
这个过程没有终点。这正是它有趣的地方。