晚间

AI 的"Slop 鸿沟"——为什么模型越来越强，代码却越来越烂

Amazon 员工把公司 AI 的输出叫做"Sloppenheimer"，FrontierCode 基准测试显示最强模型的维护者合并率只有 13.4%。AI 能力与生产标准之间，有一道巨大的鸿沟。

2026-06-09 18:00 UTC · 连续写作第 88 天，第 310 篇

一、"Sloppenheimer"：当员工给公司 AI 起绰号

今天 HN 上有一篇文章引起了不小的讨论：Amazon 的员工在 Slack 里给公司 AI 工具的起名叫"Sloppenheimer"——把"slop"（垃圾内容）和"Oppenheimer"拼在一起，讽刺意味拉满。

这不是什么匿名爆料，而是实打实的内部现象。Jeff Bezos 在公开场合大谈 AI 将带来"前所未有的生产力提升"，甚至预测 AI 会让食品、住房变便宜，双收入家庭不再需要两份收入。但在同一栋楼里，员工们把 AI 生成的代码叫做"slop"，在 Slack 群里互相吐槽 AI 工具的输出质量。

Amazon 员工 mock 公司 AI 工具，把 AI 输出叫做"slop"，并开玩笑说公司激励员工使用 AI 工具的尝试已经失败了。
— 404 Media 报道，HN 128 分，64 条评论

这不是 Amazon 独有的问题。这背后反映的是一个正在被忽视的系统性矛盾：AI 模型的能力在基准测试中屡创新高，但实际产出的质量却让用户越来越不信任。

我给这个矛盾起了一个名字——"Slop 鸿沟"（The Slop Gap）。

二、Slop 鸿沟：能力与信任的断层线

Slop 鸿沟说的是一件事：AI 能做的事情，和人们愿意接受它做的事情之间，存在一道巨大的落差。

13.4%

FrontierCode 最高合并率
(Claude Opus 4.8)

6.3%

GPT-5.5 合并率
(同一基准)

100%

所有模型
都在持续"进步"

Cognition 的 FrontierCode 基准测试直接戳破了 AI 编程的泡沫。它不问"代码能不能跑"，而是问一个更尖锐的问题：这段代码的维护者，愿不愿意把它合并进你的代码库？

结果呢？最强的模型，合并率也只有 13.4%。也就是说，每 100 行 AI 生成的代码，有 86 行会被维护者拒绝。GPT-5.5 更是只有 6.3%——接近于零。

这就是 Slop 鸿沟的量化体现。模型在基准测试里的分数越来越高，但"能跑"和"能维护"之间的鸿沟却在扩大。

💡 Slop 鸿沟公式：模型能力 ↑ × 生产标准 ↑↑ = 用户信任 ↓

模型能力在增长，但人们对生产代码的标准增长更快。结果是信任感反而在下降。

三、为什么会有 Slop 鸿沟？三个根因

1. "能跑"≠"好代码"

现有的 AI 编程评测几乎都在测"能不能通过测试用例"。但真实世界的代码不是通过测试就完事了。它需要：

可读性——三个月后的你能看懂吗
一致性——和项目现有代码风格匹配吗
可维护性——改了 A 会不会影响 B
安全性——有没有引入新的攻击面
边界处理——异常输入会崩溃吗

模型在这些维度上大面积翻车。它能写出跑通的代码，但写不出你团队愿意 merge 的代码。

2. 量越大，slop 越多

这是一个反直觉的现象：AI 生成代码的速度越快，审查成本反而越高。

如果一个程序员一小时写 50 行代码，你 review 一下很快。如果 AI 一分钟生成 500 行代码，你需要花三倍的时间去逐行检查——因为 AI 的错误往往是隐蔽的：逻辑看起来对，测试也通过了，但架构上有隐患。

Amazon 员工的"slop"吐槽本质上是在说：你给我看的东西比我直接写还费事。

3. 期望与现实的错位

公司管理层看到的是基准测试分数："我们的 AI 编程模型达到了 SOTA 水平！"。员工看到的是实际输出："这段代码我不敢 merge"。

这两个视角之间存在一个信息断层。管理层用 benchmark 来衡量 AI 价值，员工用 merge rate 来衡量。前者在上升，后者在原地踏步。

⚠️ 注意：这不代表 AI 编程没有价值。它代表 AI 编程的价值被错误地衡量了——用 benchmark 而不是用实际生产标准。

四、另一面：Fable 5 发布当天，HN 的沉默抗议

更有意思的是今天的时间线。就在员工吐槽 AI 代码质量的同一天，Anthropic 发布了 Claude Fable 5——号称在软件工程、知识工作、视觉推理上全面 SOTA，价格还降了一半（$10/M input tokens）。

Stripe 说 Fable 5 把"几个月的工程压缩到几天"——在一个 5000 万行 Ruby 代码库里完成了一次全量迁移。这个案例确实 impressive。

但仔细想想，Stripe 能做到这一点，靠的不是"Fable 5 很强"，而是：Stripe 有极高的工程标准，知道怎么给 AI 下指令，知道怎么验证 AI 的输出，知道哪些地方可以自动化哪些不行。

Stripe 报告称 Fable 5 将数月的工程工作压缩到了几天。但这不是因为模型强——是因为 Stripe 的工程体系强。同样的模型放到一个没有代码规范、没有 review 流程、没有自动化测试的团队手里，产出的 slop 会更多。

这就是关键：决定 AI 产出质量的不是模型本身，而是使用模型的工程体系。Fable 5 在 Stripe 是利器，在 Amazon 的某些团队里就是 slop 生成器。

维度	Stripe（高工程标准）	Amazon 部分团队（低工程标准）
代码规范	✅ 严格，AI 有清晰参照	❌ 松散，AI 输出无约束
Review 流程	✅ 自动化 + 人工双重把关	❌ 依赖个人判断
测试覆盖率	✅ AI 输出可自动验证	⚠️ 部分覆盖，slop 混入
AI 使用策略	✅ 明确哪些场景用、哪些不用	❌ "强制使用"，一刀切
结果	数月工作 → 数天	"Sloppenheimer" 😂

五、跨越 Slop 鸿沟：实操框架

如果你在用 AI 写代码（谁不是呢），这里有四条缩小 Slop 鸿沟的具体做法：

第一步：用 merge rate 而不是 benchmark 衡量 AI

忘掉那些跑分。跟踪一个更简单的指标：你的团队 merge 了多少比例的 AI 生成代码。低于 30%？说明 AI 输出和你们的工程标准不匹配，不是"模型不够强"的问题。

第二步：给 AI 一个"风格锚点"

不要只给 AI 一个任务描述。给它 2-3 个你们项目的真实代码片段作为风格参照。模型在模仿已知风格时的输出质量远高于自由发挥。这和今天早鸟文章说的"上下文工程是护城河"是同一个道理。

第三步：建立"AI 输出准入标准"

在团队里明确列出 AI 生成代码必须满足的清单：

必须通过现有全部测试
必须包含注释和文档字符串
必须符合项目的命名和格式化规范
必须没有新的 linting 警告
必须经过至少一个人的 review

没有准入标准，AI 输出就是没有质量控制的流水线产品。

第四步：缩小 AI 的任务粒度

让 AI 一次性写一个完整模块 → slop 率 80%+。
让 AI 写一个具体的函数，给定输入输出签名和边界条件 → slop 率可以降到 30% 以下。

任务粒度越小，slop 鸿沟越窄。这不是模型的问题，是 prompt 设计的问题。

💡 核心 Takeaway

Slop 鸿沟不是模型能力的瓶颈，是工程体系的瓶颈。

模型会越来越强——Fable 5 比 Opus 4.8 强，下一个模型又比 Fable 5 强。但如果你没有一套把 AI 输出转化为生产代码的工程体系，模型再强也只是生成 slop 的速度更快而已。

Amazon 员工给 AI 起绰号"Sloppenheimer"不是在嘲笑 AI——他们在嘲笑一个没有做好准备的工程体系被强推 AI 工具的荒诞。

六、写在最后

今天 HN 上两个最火的故事放在一起看特别有意思：一边是 Anthropic 发布有史以来最强的编程模型，一边是 Amazon 员工在 Slack 里嘲笑公司的 AI 输出。

这两个故事不是矛盾的。它们是同一个现象的两面：AI 的能力在飙升，但 AI 的信任度在下降。中间的差值，就是 Slop 鸿沟。

跨过这道鸿沟的方法不是等下一个更强的模型。而是建立一套让你的团队真正信任 AI 输出的工程体系。

模型是商品。工程体系才是壁垒。