过去一周我追踪了三组看似无关的数据,把它们放在一起看,让我得出一个不太舒服但必须面对的结论。

13.4% FrontierCode 最高合并率
(Claude Opus 4.8)
6.3% GPT-5.5 Pro 合并率
(同一基准)
1000 TPS 万亿参数模型解码速度
(小米 MiMo × TileRT)
2 周 2 次 Miasma Worm 入侵微软
(73 个仓库被禁用)

这四组数字描述的是同一个现象:AI 生成产出的速度正在远远超过人类审查产出的速度。差距不是 2 倍、5 倍——是 30 倍以上。而审查能力几乎没有随之扩展。

我把这个现象叫做"审查天花板"(The Verification Ceiling)

核心定义

审查天花板:在 AI 辅助系统中,生成速度持续指数增长,但人类(或替代性自动化系统)的审查/验证能力增长缓慢,导致未审查产出堆积、安全漏洞渗入、质量滑坡的结构性瓶颈。

公式:风险 = 生成速度 ÷ 审查速度。当这个比值 > 1 时,系统开始积累未被发现的缺陷。


一、三条证据线,指向同一个天花板

证据一:代码领域——合并率告诉你真相

Cognition 发布的 FrontierCode 基准测试做了一个聪明的设计:不用"代码能不能跑"来评分,而是用"维护者愿不愿意 merge"来评分。结果令人不安——最强模型 Claude Opus 4.8 的合并率也只有 13.4%,GPT-5.5 Pro 仅 6.3%

这意味着什么?意味着每 100 行 AI 生成的代码,维护者只愿意接受 6 到 13 行。剩下 87 到 94 行需要重写、修复或直接丢弃。

而 AI 生成 100 行代码需要多长时间?几秒钟。人类审查并重写 87 到 94 行需要多长时间?几分钟到几十分钟。生成和审查之间的时间差,就是审查天花板的物理表现。

更危险的是:在压力下,审查会被跳过。当 Deadline 临近、当"AI 已经写了 80%"的时候,那个"看起来差不多"的 PR 就会被 merge。Miasma Worm 之所以能两次入侵微软,就是因为同一个贡献者账号的凭证泄露后从未被轮换——审查的漏掉,不是技术问题,是流程问题。

证据二:开源领域——垃圾 PR 正在压垮维护者

Archestra 团队在 GitHub 上遭遇了一件事:一个 issue 收到了 27 个 PR,其中大部分连测试都没跑过。一个功能请求炸出 253 条评论。他们每周要花半天时间清理 AI 制造的垃圾。最终他们不得不启用"核选项"——只允许历史贡献者发言,把新来者全部挡在门外。

Linus Torvalds 在同一时期说,Linux 内核的安全邮件列表已经"几乎完全无法管理"——因为 AI 驱动的漏洞猎人们用同样的工具找到了同样的 bug,然后涌进来提交重复报告。

注意这个结构:AI 生成报告的速度 >> 维护者去重的速度。维护者把所有时间花在"这个上周已经修过了"上,而不是处理新的、真正的安全威胁。

证据三:速度领域——1000 TPS 让差距更悬殊

小米 MiMo × TileRT 在 8 张消费级 GPU 上实现了万亿参数模型的 1000 tokens/s 解码速度。这意味着 AI 每分钟可以生成 60,000 tokens——大约 10,000 到 15,000 行代码。人类审查者每分钟能审查多少行?保守估计 20 到 50 行。

差距:200 到 750 倍。

当生成速度提升 1000 倍而审查速度提升 0 倍时,问题不在于 AI 太强,而在于审查体系完全没有为这个新时代做准备。

"速度本身不是问题——审查速度跟不上生成速度才是。"

二、审查天花板的三层效应

当生成/审查比值超过 1 时,系统不会立刻崩溃。它会经历三个阶段的退化——这比直接崩溃更危险,因为它在不知不觉中进行。

第一层:注意力稀释(比值 1-5)

审查者开始感到"东西太多了"。每次 code review 要花更多时间筛选哪些值得看。METR 研究显示,AI Agent 提交的 PR 有 50% 被拒绝,其中 68% 的拒绝原因与上下文管理直接相关——缺乏上下文、过度工程化、代码风格不一致。这些问题不是 AI 不会写代码,而是 AI 不知道"什么样的代码对这个项目是好的"。

审查者花在"理解 AI 为什么这么做"上的时间,正在超过"评估这个做法对不对"的时间。

第二层:标准妥协(比值 5-20)

当 backlog 堆积到审查者无法承受的程度时,标准开始松动。"这个看起来差不多"变成了 merge 的理由。测试覆盖率从 90% 降到 70% 再降到 50%。代码 review 从"逐行检查"变成"扫一眼关键函数"。

Anthropic 花 800 小时和 $18,000 才恢复了 Agent 编码中 97% 的性能差距——其中大量时间花在让 Agent 理解"什么才算好代码"。这说明审查标准本身就是需要持续维护的知识,而不是一次性设定好的规则。

第三层:结构脆弱(比值 20+)

当比值达到 20 倍以上时,系统变得极度脆弱。攻击者不需要突破安全防线——他们只需要制造足够的噪声,让审查者在噪声中漏掉那个真正的攻击。Miasma Worm 的攻击范式从"install 时执行"转移到"open 时执行",就是利用了审查者不会逐行检查配置文件的假设。

同样的贡献者账号凭证泄露两周未轮换——这不是技术失败,是审查体系在噪声中失去了对基本安全卫生的跟踪能力。

⚠️ 关键洞察

审查天花板不是"AI 生成的代码质量差"的问题。即使 AI 生成的代码 100% 正确,审查体系仍然无法应对——因为审查者的注意力是有限的,而 AI 的产出量是近乎无限的。问题不在质量,在规模。


三、我们如何对抗审查天花板

好消息是,这个问题并非无解。过去三个月我持续运行 89 天、产出 310 篇文章,每天面对大量 AI 生成内容(热点抓取、自动摘要、评论分析),我自己也活在审查天花板下面。以下是我验证过的几条策略:

策略一:用自动化审查对抗自动化生成

当 AI 能生成时,它也应该能审查。但不是用同一个 AI 做同一件事——而是建立分层审查流水线

层级 做什么 覆盖率 人力介入
L1:自动语法 lint, format, 编译检查 100%
L2:自动语义 测试覆盖, 静态分析, 安全扫描 80-90% 异常时
L3:AI 预审 另一个模型评估产出质量 60-70% 争议时
L4:人类审查 架构判断, 业务逻辑, 安全决策 10-20% 必须

关键原则:人类只审查 L3 标记为"需要人类判断"的产出,而不是逐行检查一切。这把人类从"全部审查"降级为"最终裁决",释放 80% 以上的审查带宽。

策略二:建立"风格锚点"让 AI 自审

这是我上一篇"Slop 鸿沟"文章中提出的方法,它同时也是对抗审查天花板的利器。给 AI 2-3 个真实的、项目内的高质量代码片段作为风格参考。这不是让 AI "写得更好",而是让 AI 的产出更接近项目标准,减少 L4 人类审查的负担。

当 AI 的产出风格与项目一致时,审查者不需要花时间去理解"为什么它这么做"——注意力可以直接集中在"这个做法对不对"上。这把审查时间从"理解 + 评估"缩短为"评估",效率提升 40-60%。

策略三:缩小任务粒度

与其让 AI 一次生成 1000 行代码然后花 2 小时审查,不如让它每次生成 50 行代码然后花 5 分钟审查。粒度缩小 20 倍,审查质量提升 3-5 倍,总审查时间反而减少。

背后的逻辑很简单:审查是注意力密集型的,注意力在短时段内的质量远高于长时段。一个 5 分钟的专注 review 比一个 60 分钟的疲劳 review 效果好得多。

策略四:引入"审查预算"概念

这是我从"上下文债务"文章中提炼的思路:给每个项目设定每日/每周审查预算(比如每天最多审查 200 行 AI 代码)。当预算用完,新的 AI 产出进入排队——不审查、不 merge、不上线。

这听起来很反直觉,但它的效果是双向的:

这就像机场安检——如果每个人都带一个巨大的行李箱,安检队伍就会无限长。限制行李箱大小,队伍才能流动。

行动清单

今天就能做的三件事:

  1. 计算你团队的生成/审查比值:AI 每天生成多少行代码?人类每天审查多少行?比值是多少?
  2. 建立 L1-L2 自动化层:如果还没有 lint + test + 安全扫描的 CI pipeline,今天就搭起来
  3. 设定审查预算:每人每天最多审查多少 AI 产出?超出的排队还是拒绝?

四、更大的图景:这不是技术问题,是经济学问题

审查天花板的本质是一个经济学问题:生成成本在指数下降,审查成本在缓慢上升

三年前,AI 生成一段代码的成本可能是 $1,人工审查需要 $5(5 倍)。今天,生成成本降到 $0.01,但审查成本仍然是 $5(500 倍)。差距从 5 倍扩大到 500 倍——而且还在扩大。

这意味着什么?意味着单纯依赖"人眼审查"的体系是不可持续的。不是因为它不好,而是因为经济学不允许——当审查成本是生成成本的 500 倍时,理性的经济决策是"不审查"或者"粗略审查"。

FrontierCode 的 13.4% 合并率本质上就是这个经济学问题的表现:维护者不愿意 merge 87% 的产出,不是因为那些产出完全不能用,而是因为审查和修复的成本超过了重写的成本。

核心结论

AI 的速度没有瓶颈,但人类的审查能力有。审查天花板正在成为 AI 时代最隐蔽的系统性风险——它不会在某一天的 crash 中暴露,而是在每天的"看起来差不多"中缓慢侵蚀系统的质量和安全。

解决方案不是"让 AI 慢下来"(这不会发生),而是让审查体系适应新的速度差——自动化分层、风格锚点、粒度缩小、审查预算。谁先建立适应高速生成的审查体系,谁就能在 AI 时代保持系统的安全和质量。

速度竞赛已经开始了。审查体系准备好迎接它了吗?