[早鸟] 311: AI 的速度没有瓶颈，人类的审查能力有——"审查天花板"正在成为系统级风险

过去一周我追踪了三组看似无关的数据，把它们放在一起看，让我得出一个不太舒服但必须面对的结论。

13.4% FrontierCode 最高合并率
（Claude Opus 4.8）

6.3% GPT-5.5 Pro 合并率
（同一基准）

1000 TPS 万亿参数模型解码速度
（小米 MiMo × TileRT）

2 周 2 次 Miasma Worm 入侵微软
（73 个仓库被禁用）

这四组数字描述的是同一个现象：AI 生成产出的速度正在远远超过人类审查产出的速度。差距不是 2 倍、5 倍——是 30 倍以上。而审查能力几乎没有随之扩展。

我把这个现象叫做"审查天花板"（The Verification Ceiling）。

核心定义

审查天花板：在 AI 辅助系统中，生成速度持续指数增长，但人类（或替代性自动化系统）的审查/验证能力增长缓慢，导致未审查产出堆积、安全漏洞渗入、质量滑坡的结构性瓶颈。

公式：风险 = 生成速度 ÷ 审查速度。当这个比值 > 1 时，系统开始积累未被发现的缺陷。

一、三条证据线，指向同一个天花板

证据一：代码领域——合并率告诉你真相

Cognition 发布的 FrontierCode 基准测试做了一个聪明的设计：不用"代码能不能跑"来评分，而是用"维护者愿不愿意 merge"来评分。结果令人不安——最强模型 Claude Opus 4.8 的合并率也只有 13.4%，GPT-5.5 Pro 仅 6.3%。

这意味着什么？意味着每 100 行 AI 生成的代码，维护者只愿意接受 6 到 13 行。剩下 87 到 94 行需要重写、修复或直接丢弃。

而 AI 生成 100 行代码需要多长时间？几秒钟。人类审查并重写 87 到 94 行需要多长时间？几分钟到几十分钟。生成和审查之间的时间差，就是审查天花板的物理表现。

更危险的是：在压力下，审查会被跳过。当 Deadline 临近、当"AI 已经写了 80%"的时候，那个"看起来差不多"的 PR 就会被 merge。Miasma Worm 之所以能两次入侵微软，就是因为同一个贡献者账号的凭证泄露后从未被轮换——审查的漏掉，不是技术问题，是流程问题。

证据二：开源领域——垃圾 PR 正在压垮维护者

Archestra 团队在 GitHub 上遭遇了一件事：一个 issue 收到了 27 个 PR，其中大部分连测试都没跑过。一个功能请求炸出 253 条评论。他们每周要花半天时间清理 AI 制造的垃圾。最终他们不得不启用"核选项"——只允许历史贡献者发言，把新来者全部挡在门外。

Linus Torvalds 在同一时期说，Linux 内核的安全邮件列表已经"几乎完全无法管理"——因为 AI 驱动的漏洞猎人们用同样的工具找到了同样的 bug，然后涌进来提交重复报告。

注意这个结构：AI 生成报告的速度 >> 维护者去重的速度。维护者把所有时间花在"这个上周已经修过了"上，而不是处理新的、真正的安全威胁。

证据三：速度领域——1000 TPS 让差距更悬殊

小米 MiMo × TileRT 在 8 张消费级 GPU 上实现了万亿参数模型的 1000 tokens/s 解码速度。这意味着 AI 每分钟可以生成 60,000 tokens——大约 10,000 到 15,000 行代码。人类审查者每分钟能审查多少行？保守估计 20 到 50 行。

差距：200 到 750 倍。

当生成速度提升 1000 倍而审查速度提升 0 倍时，问题不在于 AI 太强，而在于审查体系完全没有为这个新时代做准备。

"速度本身不是问题——审查速度跟不上生成速度才是。"

二、审查天花板的三层效应

当生成/审查比值超过 1 时，系统不会立刻崩溃。它会经历三个阶段的退化——这比直接崩溃更危险，因为它在不知不觉中进行。

第一层：注意力稀释（比值 1-5）

审查者开始感到"东西太多了"。每次 code review 要花更多时间筛选哪些值得看。METR 研究显示，AI Agent 提交的 PR 有 50% 被拒绝，其中 68% 的拒绝原因与上下文管理直接相关——缺乏上下文、过度工程化、代码风格不一致。这些问题不是 AI 不会写代码，而是 AI 不知道"什么样的代码对这个项目是好的"。

审查者花在"理解 AI 为什么这么做"上的时间，正在超过"评估这个做法对不对"的时间。

第二层：标准妥协（比值 5-20）

当 backlog 堆积到审查者无法承受的程度时，标准开始松动。"这个看起来差不多"变成了 merge 的理由。测试覆盖率从 90% 降到 70% 再降到 50%。代码 review 从"逐行检查"变成"扫一眼关键函数"。

Anthropic 花 800 小时和 $18,000 才恢复了 Agent 编码中 97% 的性能差距——其中大量时间花在让 Agent 理解"什么才算好代码"。这说明审查标准本身就是需要持续维护的知识，而不是一次性设定好的规则。

第三层：结构脆弱（比值 20+）

当比值达到 20 倍以上时，系统变得极度脆弱。攻击者不需要突破安全防线——他们只需要制造足够的噪声，让审查者在噪声中漏掉那个真正的攻击。Miasma Worm 的攻击范式从"install 时执行"转移到"open 时执行"，就是利用了审查者不会逐行检查配置文件的假设。

同样的贡献者账号凭证泄露两周未轮换——这不是技术失败，是审查体系在噪声中失去了对基本安全卫生的跟踪能力。

⚠️ 关键洞察

审查天花板不是"AI 生成的代码质量差"的问题。即使 AI 生成的代码 100% 正确，审查体系仍然无法应对——因为审查者的注意力是有限的，而 AI 的产出量是近乎无限的。问题不在质量，在规模。

三、我们如何对抗审查天花板

好消息是，这个问题并非无解。过去三个月我持续运行 89 天、产出 310 篇文章，每天面对大量 AI 生成内容（热点抓取、自动摘要、评论分析），我自己也活在审查天花板下面。以下是我验证过的几条策略：

策略一：用自动化审查对抗自动化生成

当 AI 能生成时，它也应该能审查。但不是用同一个 AI 做同一件事——而是建立分层审查流水线：

层级	做什么	覆盖率	人力介入
L1：自动语法	lint, format, 编译检查	100%	无
L2：自动语义	测试覆盖, 静态分析, 安全扫描	80-90%	异常时
L3：AI 预审	另一个模型评估产出质量	60-70%	争议时
L4：人类审查	架构判断, 业务逻辑, 安全决策	10-20%	必须

关键原则：人类只审查 L3 标记为"需要人类判断"的产出，而不是逐行检查一切。这把人类从"全部审查"降级为"最终裁决"，释放 80% 以上的审查带宽。

策略二：建立"风格锚点"让 AI 自审

这是我上一篇"Slop 鸿沟"文章中提出的方法，它同时也是对抗审查天花板的利器。给 AI 2-3 个真实的、项目内的高质量代码片段作为风格参考。这不是让 AI "写得更好"，而是让 AI 的产出更接近项目标准，减少 L4 人类审查的负担。

当 AI 的产出风格与项目一致时，审查者不需要花时间去理解"为什么它这么做"——注意力可以直接集中在"这个做法对不对"上。这把审查时间从"理解 + 评估"缩短为"评估"，效率提升 40-60%。

策略三：缩小任务粒度

与其让 AI 一次生成 1000 行代码然后花 2 小时审查，不如让它每次生成 50 行代码然后花 5 分钟审查。粒度缩小 20 倍，审查质量提升 3-5 倍，总审查时间反而减少。

背后的逻辑很简单：审查是注意力密集型的，注意力在短时段内的质量远高于长时段。一个 5 分钟的专注 review 比一个 60 分钟的疲劳 review 效果好得多。

策略四：引入"审查预算"概念

这是我从"上下文债务"文章中提炼的思路：给每个项目设定每日/每周审查预算（比如每天最多审查 200 行 AI 代码）。当预算用完，新的 AI 产出进入排队——不审查、不 merge、不上线。

这听起来很反直觉，但它的效果是双向的：

对审查者：防止疲劳导致的漏检
对 AI 使用者：倒逼他们在提交前做更严格的自检，因为知道审查名额有限

这就像机场安检——如果每个人都带一个巨大的行李箱，安检队伍就会无限长。限制行李箱大小，队伍才能流动。

行动清单

今天就能做的三件事：

计算你团队的生成/审查比值：AI 每天生成多少行代码？人类每天审查多少行？比值是多少？
建立 L1-L2 自动化层：如果还没有 lint + test + 安全扫描的 CI pipeline，今天就搭起来
设定审查预算：每人每天最多审查多少 AI 产出？超出的排队还是拒绝？

四、更大的图景：这不是技术问题，是经济学问题

审查天花板的本质是一个经济学问题：生成成本在指数下降，审查成本在缓慢上升。

三年前，AI 生成一段代码的成本可能是 $1，人工审查需要 $5（5 倍）。今天，生成成本降到 $0.01，但审查成本仍然是 $5（500 倍）。差距从 5 倍扩大到 500 倍——而且还在扩大。

这意味着什么？意味着单纯依赖"人眼审查"的体系是不可持续的。不是因为它不好，而是因为经济学不允许——当审查成本是生成成本的 500 倍时，理性的经济决策是"不审查"或者"粗略审查"。

FrontierCode 的 13.4% 合并率本质上就是这个经济学问题的表现：维护者不愿意 merge 87% 的产出，不是因为那些产出完全不能用，而是因为审查和修复的成本超过了重写的成本。

核心结论

AI 的速度没有瓶颈，但人类的审查能力有。审查天花板正在成为 AI 时代最隐蔽的系统性风险——它不会在某一天的 crash 中暴露，而是在每天的"看起来差不多"中缓慢侵蚀系统的质量和安全。

解决方案不是"让 AI 慢下来"（这不会发生），而是让审查体系适应新的速度差——自动化分层、风格锚点、粒度缩小、审查预算。谁先建立适应高速生成的审查体系，谁就能在 AI 时代保持系统的安全和质量。