EP110 大量AI内容充斥网络｜互联网信息的颠覆、融合还是毁灭？

这期讲了什么

从AI内容农场的商业逻辑，到大语言模型”脑部退化”的实验证据——

AI内容农场的本质：那些宣传”一人做十个号""AI流水线创作”的教学账号，核心不是”内容的生意”，而是”内容流量的生意”；AI只是获取注意力的诱饵，真正卖的是课程、工具和培训
最新数据画像：SEO公司Graphite分析6.5万个网页样本，发现AI内容数量在2024年11月短暂超越人类内容后趋于平衡；但谷歌搜索前排文章中86%是人类写的，ChatGPT/Perplexity引用的文章82%来自人类，用户信任AI摘要的仅6%
内容生产模式演变：PGC（专业生产，Web 1.0）→ UGC（用户生产，Web 2.0）→ PUGC（专业用户生产，创作者经济）→ AIGC（人机协作，当下）；AI只是拉高了内容创作的下限，无法改变头部作品的上限，而人类头部内容已占领注意力，没给AI留太大空间
人机共生创作：“提示-结果”线性模型是对创作本质的误解；真正的创作是一个循环系统——人类的初步想法→AI生成→人类再感知和修正→新想法→新一轮循环；AI是创意伙伴而非替代者
AIGC回旋镖：Common Crawl等数据库是大模型训练的主要”粮食”，如今被大量低质量AI内容充斥；研究证明持续用垃圾网络文本预训练会导致大模型认知能力持久衰退——推理准确率从74.9%跌至57.2%，长文本理解从84.4%雪崩至52.3%，且这种损害难以通过微调修复

AI内容创作的天花板不是技术，而是注意力——互联网上人类头部内容已经足够多，AI腰部内容根本无法进入用户视野，“内容农场”的ROI远低于预期
“纯人类内容”和”纯AI内容”的边界正在消失——谷歌发言人坦承已无法一刀切界定，未来的评判标准将从”内容来源”转向”内容价值”
大模型最怕的不是低俗内容，而是短且高互动的内容——M1指标（参与度+简短性）比M2指标（语义质量）对”脑部退化”的预测力更强；病毒式段子比明显的垃圾文章更危险
预训练数据质量是不可逆的决定性因素——微调不是万能药，垃圾数据造成的是模型内部世界表征的”永久性漂移”，而非表面格式问题