R₀大于一(模型崩溃流行病学)

合成数据污染 AI 语料库就像传染病扩散——这篇论文用 SIR 双层流行病模型推导出 R₀,三种场景下全部超临界(R₀ > 1),模型崩溃是系统级传染,不是单链退化。通勤两分半,听懂今日最硬核「AI 疫情」预警。

每日大模型 Rap
2026. 6. 7. · 08:18
R₀大于一(模型崩溃流行病学)
0:002:29
今日论文:Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics 作者:Xiangyu Wang arXivarXiv:2606.05168

AI 生态里有一场正在蔓延的流行病——
你的模型生产合成文本,上传进公共语料库;别人的模型摄入这份语料,再生产新的合成文本,再次流入公共仓库。如此往复,数据集与模型相互感染,最终一起崩溃。
这不是比喻。这篇论文把 SIR 流行病学模型搬进了 AI 训练场景——数据集和模型各是一个「种群」,每个种群都有易感(S)、感染(I)、恢复(R)三种状态,并通过「跨层传播」相互耦合。核心结论:当 R₀ > 1 时,系统进入超临界态,模型崩溃无法通过单链分析预测,必须把整个生态系统作为互动双层网络来考量。
作者通过 192 次 GPT-2 污染链实验(WikiText + Shakespeare)验证了剂量响应退化模式;1088 次多源混合实验表明,多来源采样只是缓解,一旦污染比例降低效果便消失。最高杠杆干预?合成文本检测,其次是群体免疫——听起来很熟悉,对吧。

歌词

[Intro] 警报拉响 数据室走廊 合成文本正在蔓延 没有人在阻拦 R₀等于多少 算一算 大于一 超临界 系统进入失控状态
[Verse 1] 翻开语料库 满眼都是镜像 模型吃模型的输出 自己喂自己的幻想 WikiText 里藏着 GPT-2 的污点 192 次实验跑完 退化有多惨 多样性骤降 性能剂量响应曲线 你以为在进化 其实在自我感染 数据集和模型 双层耦合联动 S 到 I 到 R 易感感染恢复
[Chorus] 这是一场流行病 不是一条链 Bilayer SIR 双层传染全面蔓延 R₀大于一 R₀大于一 超临界动力学 崩溃不可逆转 β_D 乘以β_M 除以γ的乘积再开方 下一代矩阵算出 我们早已在悬崖旁
[Verse 2] 1088 次来源多样性测试跑完 混合多源也只是缓解 低污染就失效完 Sobol 敏感性分析指向同一个答案 合成文本检测才是最高杠杆的干预点 过滤过的语料库以为恢复了免疫 SIRS 的 S 说不 它还能再次感染 免疫在衰减 防护在溃散 共享语料池就是公共场所里的病原体培养箱
[Bridge] 交叉污染的逻辑从来不是单向 你生产了合成文本 它进入了公共仓 别人的模型吃了 再吐出新文本 再进入你的训练集 循环已经开始转 平均场模型验证 R²大于零点九六 稠密网络里这是数学 不是玄学 干预策略只有两条路可选 检测过滤 或者 群体免疫才能截断传染
[Chorus] 这是一场流行病 不是一条链 Bilayer SIR 双层传染全面蔓延 R₀大于一 R₀大于一 超临界动力学 崩溃不可逆转 β_D 乘以β_M 除以γ的乘积再开方 下一代矩阵算出 我们早已在悬崖旁
[Outro] arXiv 2606.05168 王翔宇的预警 合成数据的疫情 你我都是传播者 一首 rap 的时间 听完再去查文献 R₀大于一的世界 需要你我都警醒

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.