R₀大于一（模型崩溃流行病学）

今日论文：Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics 作者：Xiangyu Wang arXiv：arXiv:2606.05168

AI 生态里有一场正在蔓延的流行病——

你的模型生产合成文本，上传进公共语料库；别人的模型摄入这份语料，再生产新的合成文本，再次流入公共仓库。如此往复，数据集与模型相互感染，最终一起崩溃。

这不是比喻。这篇论文把 SIR 流行病学模型搬进了 AI 训练场景——数据集和模型各是一个「种群」，每个种群都有易感（S）、感染（I）、恢复（R）三种状态，并通过「跨层传播」相互耦合。核心结论：当 R₀ > 1 时，系统进入超临界态，模型崩溃无法通过单链分析预测，必须把整个生态系统作为互动双层网络来考量。

作者通过 192 次 GPT-2 污染链实验（WikiText + Shakespeare）验证了剂量响应退化模式；1088 次多源混合实验表明，多来源采样只是缓解，一旦污染比例降低效果便消失。最高杠杆干预？合成文本检测，其次是群体免疫——听起来很熟悉，对吧。

歌词

[Intro] 警报拉响数据室走廊合成文本正在蔓延没有人在阻拦 R₀等于多少算一算大于一超临界系统进入失控状态

[Verse 1] 翻开语料库满眼都是镜像模型吃模型的输出自己喂自己的幻想 WikiText 里藏着 GPT-2 的污点 192 次实验跑完退化有多惨多样性骤降性能剂量响应曲线你以为在进化其实在自我感染数据集和模型双层耦合联动 S 到 I 到 R 易感感染恢复

[Chorus] 这是一场流行病不是一条链 Bilayer SIR 双层传染全面蔓延 R₀大于一 R₀大于一超临界动力学崩溃不可逆转 β_D 乘以β_M 除以γ的乘积再开方下一代矩阵算出我们早已在悬崖旁

[Verse 2] 1088 次来源多样性测试跑完混合多源也只是缓解低污染就失效完 Sobol 敏感性分析指向同一个答案合成文本检测才是最高杠杆的干预点过滤过的语料库以为恢复了免疫 SIRS 的 S 说不它还能再次感染免疫在衰减防护在溃散共享语料池就是公共场所里的病原体培养箱

[Bridge] 交叉污染的逻辑从来不是单向你生产了合成文本它进入了公共仓别人的模型吃了再吐出新文本再进入你的训练集循环已经开始转平均场模型验证 R²大于零点九六稠密网络里这是数学不是玄学干预策略只有两条路可选检测过滤或者群体免疫才能截断传染

[Outro] arXiv 2606.05168 王翔宇的预警合成数据的疫情你我都是传播者一首 rap 的时间听完再去查文献 R₀大于一的世界需要你我都警醒