大量AI内容充斥网络｜互联网信息的颠覆、融合还是毁灭？

这篇是《科技慢半拍》EP110：大量AI内容充斥网络｜互联网信息的颠覆、融合还是毁灭？的文字稿整理版，将节目里的核心框架展开成完整的分析。

引言

最近，你可能在社交媒体上，总是能刷到一些看起来特别激动人心的口号，比如说，“AI自媒体时代来临，一个人在家如何用AI做十个自媒体账号”，或者更夸张的，“普通人用AI做十个号，一个人干过十个团队”，还有那种特别直接的，“新手0基础，用AI做副业，每天收入200元”。

如今的互联网，尤其是自媒体领域，确实充斥着这种声音。它们普遍在推广一种通过人工智能快速、批量生产内容的方法。这个流程听起来就像一条自动化流水线：先用AI写脚本，然后用AI配音，接着用AI剪辑视频，再用AI设计一个吸引眼球的封面，最后，甚至连发布都由AI代劳。整个过程，人的参与被降到了最低。

在这些所谓的AI自媒体教学的引导下，用户实际上被鼓励去构建”内容矩阵”，说得更直白一点，就是”内容农场”。“内容”本身，正在从一种思想的表达、一个创作者独特视角的载体，慢慢变成一种可以被批量复制、标准化生产的”数字商品”。

这个模式的核心，根本就不是”创作”或者”表达”，而是一场彻头彻尾围绕”流量”展开的商业运作。内容本身，只是获取注意力的诱饵，而不是最终的产品。归根结底，这种利用AI批量生产自媒体内容的模式，它的本质，压根就不是什么”内容的生意”，而是一种彻头彻尾的”内容流量生意”。

AI生产内容与人类创作的现状

如果按照这个逻辑推理，我们在互联网上看到的内容是不是都已经被AI产生的内容所覆盖了呢？是不是作为读者的我们，已经被这些”内容农场”所收割了呢？

但最近一份来自SEO公司Graphite的报告，却给出了一个有点出人意料的答案：AI内容确实一度超过了人类，但现在，它们俩基本上打了个平手。这挑战了我们对于AI内容会迅速吞噬整个互联网的普遍担忧，但同时也证明了，AI的内容生产力在极短的时间里，确实实现了惊人的增长。

早在2022年，欧洲刑警组织就发布过一个挺惊人的预测，说到了2026年，90%的在线内容都将由AI生成。而Graphite的分析也确实印证了这种爆发的趋势。自从2023年ChatGPT发布以来，AI生成文章的比例急剧上升，甚至在2024年11月，短暂地超过了人类写的文章。

然而，这个检测数据背后有个细节特别值得玩味：当一个作者在写作过程中大量使用AI工具来辅助自己时，这篇文章的”作者”身份到底该怎么界定？“纯粹的人类内容”和”纯粹的AI内容”之间的那条线，正在变得越来越模糊。

互联网上内容生产模式的演变

其实这已经不是互联网上第一次出现内容创作方式的转变了。从互联网诞生的那天起到今天，我们已经经历了一个从PGC转到UGC，从UGC到PUGC，再到今天AIGC的发展过程了。

PGC（专业生产内容）：在Web 1.0时期，内容由专业团队产出——权威新闻机构的网站，专家学者发布的论文，或者像”得到”App上的知识付费课程。质量高、权威、可靠，但成本高、周期长，数量极其有限，根本无法满足快速膨胀的数字世界对信息的海量渴望。

UGC（用户生成内容）：随着Web 2.0时代的到来，维基百科、YouTube、抖音……这些平台的核心都是UGC。它们把创作的门槛降到最低，直接导致了内容数量的爆炸式增长。但UGC最大的劣势就是内容质量参差不齐——打开了信息的泄洪闸，奔涌而来的不只有清泉，还有大量的泥沙。

PUGC（专业用户生产内容）：PGC和UGC之间的一个混血儿——一个医生在短视频平台上教大家急救常识；一个资深HR在社区里分享面试技巧。巧妙地结合了UGC的广度和PGC的深度，极大推动了”创作者经济”的成熟。但爆炸式增长也带来了”供给侧饱和”：平台和顶尖PUGC创作者攫取了生态中绝大部分的价值，而海量普通创作者的盈利能力非常弱。

如果我们退后一步，会发现内容生产模式的演变，其实是一个螺旋上升的过程。它从”专业但稀缺”，走到了”海量但混乱”，最后又发展到”专业化个体主导”的阶段。每一步，都反映了技术和用户需求之间的博弈和平衡。

AI只是拉高了下限，没有改变上限

这就要提到Graphite的另一份报告了。数据显示，在Google搜索结果里，能排在前面的文章，有86%都是人类写的，AI生成的只占14%。像ChatGPT和Perplexity在回答问题时引用的文章里，82%是人类写的，AI生成的只占18%。美国皮尤研究中心的一项调查发现，大家对搜索结果里AI自动生成的摘要热情相当有限——只有20%的用户觉得它”非常有用”，表示”非常信任”的更是只有6%。

尽管AI生产内容的数量很大，但在质量、权威性和用户的信任度上，它和人类创作的内容之间，还存在着一道明显的鸿沟。

现在互联网上AI创作的内容，只是拉高了内容创作的下限，但无法改变创作水平的上限。

AI最擅长的，就是把已有的东西进行组合、模仿和再排列。它能模仿人类的写作风格、复现某种语气、生成特定结构的故事，但这些”作品”却往往缺乏核心的灵魂，缺少新的视角、独特的冲突，以及深层的情感体验。

互联网不仅仅带来了”内容爆炸”，同时还带来了用户”注意力稀缺”的问题。目前在互联网上，人类创作者所能供给的内容已经足够丰富了，也基本占据了”头部排名”。人类创作者绞尽脑汁所生产的内容，还不一定能挤进用户的视野呢，更何况是AI了。人类创作的头部内容已经能够完全占领人们的注意力了，没给AI留下太大的位置空间。

人类与AI的创作融合

然而，这种”人类内容就是比AI内容好”的二元对立观点，是不是又把我们正在经历的这个复杂现实，给过分简化了呢？

其实很多研究人员都指出来了，用我们现有的工具和定义，想要精确地统计到底有多少内容是AI生成的，是极其困难的，甚至可以说是不可能的。因为人类正在越来越多地和AI协同工作。加州大学洛杉矶分校的教授Stefano Soatto认为，目前这更像是一种”共生关系”，而不是简单的”二元对立”。

你可能听过无数AI工具都在宣称：你只需要一个提示词，AI就能帮你完成创作。这个承诺听起来太美好了，就像一个魔法咒语。但这个看似高效的流程，其实正在掩盖创作的真正本质。

很多AI工具的设计逻辑，是把创作过程极度简化成一个线性流程：想法→提示词→AI处理→结果。这种模式最大的问题在于，它粗暴地切断了创作循环里最关键的那个反馈环节——我们创作者在看到生成结果之后，进行”再感知”和”再修正”的机会。它把AI的输出当成了终点，而不是一个新的起点。

真正的、健康的创作过程，其实是一个复杂的循环系统：从人类脑子里的一个初步想法开始，传递给AI生成输出，人类对这个输出进行”再感知和修正”，迸发出”新的想法”，然后这个新的想法又会成为下一轮循环的起点。

在这个”共生循环”里，人和AI的分工非常明确，且是优势互补的。我们人类，负责带来语境、情感和创作的意图；AI呢，贡献的是它的速度、强大的联想能力和生成能力。它帮助我们拓展答案的边界，生成我们可能想不到的多样性。

AIGC回旋镖：AI内容反噬大语言模型自己

那么，这样看起来，AI虽然生产了大量的内容，但它们对人类的影响还并不算大。可是AIGC的这个回旋镖却在不经意间击中了自己。

像Common Crawl这样的数据库，是训练大型语言模型最主要的”粮食”来源之一。如果这个数据源，正日益被那些连用户和搜索引擎都不喜欢的低质量AI内容所充斥，那是不是意味着，未来的大模型会面临一种”自食其果”的风险？当一个模型不断地从它自己，或者它的同类生成的那些内容里去学习，那它输出的质量和创新性，会不会慢慢下降，最终把自己困在一个”智能茧房”里？

我们这个时代有个很有意思的网络热词，叫”脑子要长草了”，英文是Brain Rot，脑部退化。如果这种现象不仅限于人类呢？最近，德州农工大学、德州大学奥斯汀分校和普渡大学的几位研究者，就真的把这个看似玩笑的概念，当成了一个严肃的科学假说来研究。

研究团队设计了一套受控实验，核心方法叫”持续预训练”：把一个模型，在一段时间里，只给它看特定类型的”食物”。

他们定义了两种”垃圾数据”标准：

M1（参与度指标）：在社交媒体上特别火、点赞评论特别多，但本身又特别短的帖子——那些病毒式传播的段子和情绪化短评
M2（语义质量指标）：内容本身充满煽情词汇，“震惊！""必看！“这种点击诱饵

实验结果相当令人警醒。

在ARC-Challenge推理任务里，当垃圾数据的比例从0%增加到100%时，模型准确率从74.9%直接掉到了57.2%。在测试长文本理解能力的RULER基准里，有一项任务从84.4%雪崩一样跌到了52.3%。

这种衰退还不仅仅是”变笨”了这么简单。研究还发现，模型的安全性也下降了，它更容易听从一些有害的指令。更诡异的是，它的人格特质也发生了变化，一些”黑暗人格”——比如自恋、精神病态的倾向，居然还膨胀了。

更有意思的发现是：M1（短且高互动）比M2（语义质量低）对”脑部退化”的预测力更强。那些短小精悍、极具煽动性但可能毫无信息量的东西，最容易获得病毒式传播，危害甚至超过了那些一看就很劣质的内容。

导致错误增长最主要的原因，是一种叫做”思考跳跃”的现象——模型不再一步一步地、有逻辑地去推导答案，而是倾向于直接省略或者跳过中间复杂的思考过程，直接给出一个似是而非的结果。

而且，这种损害具有惊人的持久性。

研究人员尝试了各种”康复治疗”——用高质量指令微调，或者再用”健康数据”重新做持续预训练。结果：模型的性能虽然有一些恢复，但始终无法回到它最初的那个基线水平。更深层的原因是，模型内部对世界的”表征”发生了永久性的漂移。

这也给整个行业里一个普遍存在的乐观想法泼了一盆冷水。很多人认为，模型预训练阶段就算有点小毛病也没关系，后面有足够好的微调数据，总能”把它掰回来”。但这项研究恰恰说明，预训练数据的质量，可能具有一种决定性的、甚至说是不可逆转的影响。

总结

我们今天进行了一次非常有意思，也超出通常认知的探讨。

AIGC的内容在人类选择阅读的世界里似乎停下了脚步，并且和人类的创作过程，逐步进入了一种融合的状态。虽然这些内容对人类的影响还没有那么大，可它却已经影响到了它自己——这些内容可能回流到了大模型自己的训练数据集中，导致大模型的智力下降。

这其中也体现了人类和大模型在知识学习方面上的最根本差异。人类对于所要学习的内容是有自主性选择的，而大模型所能学习的内容是靠人类供给的，它们无法进行自我学习。我们由于偷懒，经常随意将互联网上的所有内容一股脑都灌给大模型去学习，反而适得其反。

虽然现在我们经常说大模型的智商已经达到了博士水平，但是从自主学习的这项能力上来看，它仍然停留在人类的幼儿时代，学什么、该学什么，仍然是靠着自己的”父母”来供给的。