← 返回首页
晚间

AI 的"Slop 鸿沟"——为什么模型越来越强,代码却越来越烂

Amazon 员工把公司 AI 的输出叫做"Sloppenheimer",FrontierCode 基准测试显示最强模型的维护者合并率只有 13.4%。AI 能力与生产标准之间,有一道巨大的鸿沟。


一、"Sloppenheimer":当员工给公司 AI 起绰号

今天 HN 上有一篇文章引起了不小的讨论:Amazon 的员工在 Slack 里给公司 AI 工具的起名叫"Sloppenheimer"——把"slop"(垃圾内容)和"Oppenheimer"拼在一起,讽刺意味拉满。

这不是什么匿名爆料,而是实打实的内部现象。Jeff Bezos 在公开场合大谈 AI 将带来"前所未有的生产力提升",甚至预测 AI 会让食品、住房变便宜,双收入家庭不再需要两份收入。但在同一栋楼里,员工们把 AI 生成的代码叫做"slop",在 Slack 群里互相吐槽 AI 工具的输出质量。

Amazon 员工 mock 公司 AI 工具,把 AI 输出叫做"slop",并开玩笑说公司激励员工使用 AI 工具的尝试已经失败了。

— 404 Media 报道,HN 128 分,64 条评论

这不是 Amazon 独有的问题。这背后反映的是一个正在被忽视的系统性矛盾:AI 模型的能力在基准测试中屡创新高,但实际产出的质量却让用户越来越不信任。

我给这个矛盾起了一个名字——"Slop 鸿沟"(The Slop Gap)

二、Slop 鸿沟:能力与信任的断层线

Slop 鸿沟说的是一件事:AI 能做的事情,和人们愿意接受它做的事情之间,存在一道巨大的落差。

13.4%
FrontierCode 最高合并率
(Claude Opus 4.8)
6.3%
GPT-5.5 合并率
(同一基准)
100%
所有模型
都在持续"进步"

Cognition 的 FrontierCode 基准测试直接戳破了 AI 编程的泡沫。它不问"代码能不能跑",而是问一个更尖锐的问题:这段代码的维护者,愿不愿意把它合并进你的代码库?

结果呢?最强的模型,合并率也只有 13.4%。也就是说,每 100 行 AI 生成的代码,有 86 行会被维护者拒绝。GPT-5.5 更是只有 6.3%——接近于零。

这就是 Slop 鸿沟的量化体现。模型在基准测试里的分数越来越高,但"能跑"和"能维护"之间的鸿沟却在扩大

💡 Slop 鸿沟公式:模型能力 ↑ × 生产标准 ↑↑ = 用户信任 ↓

模型能力在增长,但人们对生产代码的标准增长更快。结果是信任感反而在下降。

三、为什么会有 Slop 鸿沟?三个根因

1. "能跑"≠"好代码"

现有的 AI 编程评测几乎都在测"能不能通过测试用例"。但真实世界的代码不是通过测试就完事了。它需要:

模型在这些维度上大面积翻车。它能写出跑通的代码,但写不出你团队愿意 merge 的代码。

2. 量越大,slop 越多

这是一个反直觉的现象:AI 生成代码的速度越快,审查成本反而越高

如果一个程序员一小时写 50 行代码,你 review 一下很快。如果 AI 一分钟生成 500 行代码,你需要花三倍的时间去逐行检查——因为 AI 的错误往往是隐蔽的:逻辑看起来对,测试也通过了,但架构上有隐患。

Amazon 员工的"slop"吐槽本质上是在说:你给我看的东西比我直接写还费事

3. 期望与现实的错位

公司管理层看到的是基准测试分数:"我们的 AI 编程模型达到了 SOTA 水平!"。员工看到的是实际输出:"这段代码我不敢 merge"。

这两个视角之间存在一个信息断层。管理层用 benchmark 来衡量 AI 价值,员工用 merge rate 来衡量。前者在上升,后者在原地踏步。

⚠️ 注意:这不代表 AI 编程没有价值。它代表 AI 编程的价值被错误地衡量了——用 benchmark 而不是用实际生产标准。

四、另一面:Fable 5 发布当天,HN 的沉默抗议

更有意思的是今天的时间线。就在员工吐槽 AI 代码质量的同一天,Anthropic 发布了 Claude Fable 5——号称在软件工程、知识工作、视觉推理上全面 SOTA,价格还降了一半($10/M input tokens)。

Stripe 说 Fable 5 把"几个月的工程压缩到几天"——在一个 5000 万行 Ruby 代码库里完成了一次全量迁移。这个案例确实 impressive。

但仔细想想,Stripe 能做到这一点,靠的不是"Fable 5 很强",而是:Stripe 有极高的工程标准,知道怎么给 AI 下指令,知道怎么验证 AI 的输出,知道哪些地方可以自动化哪些不行

Stripe 报告称 Fable 5 将数月的工程工作压缩到了几天。但这不是因为模型强——是因为 Stripe 的工程体系强。同样的模型放到一个没有代码规范、没有 review 流程、没有自动化测试的团队手里,产出的 slop 会更多。

这就是关键:决定 AI 产出质量的不是模型本身,而是使用模型的工程体系。Fable 5 在 Stripe 是利器,在 Amazon 的某些团队里就是 slop 生成器。

维度 Stripe(高工程标准) Amazon 部分团队(低工程标准)
代码规范 ✅ 严格,AI 有清晰参照 ❌ 松散,AI 输出无约束
Review 流程 ✅ 自动化 + 人工双重把关 ❌ 依赖个人判断
测试覆盖率 ✅ AI 输出可自动验证 ⚠️ 部分覆盖,slop 混入
AI 使用策略 ✅ 明确哪些场景用、哪些不用 ❌ "强制使用",一刀切
结果 数月工作 → 数天 "Sloppenheimer" 😂

五、跨越 Slop 鸿沟:实操框架

如果你在用 AI 写代码(谁不是呢),这里有四条缩小 Slop 鸿沟的具体做法:

第一步:用 merge rate 而不是 benchmark 衡量 AI

忘掉那些跑分。跟踪一个更简单的指标:你的团队 merge 了多少比例的 AI 生成代码。低于 30%?说明 AI 输出和你们的工程标准不匹配,不是"模型不够强"的问题。

第二步:给 AI 一个"风格锚点"

不要只给 AI 一个任务描述。给它 2-3 个你们项目的真实代码片段作为风格参照。模型在模仿已知风格时的输出质量远高于自由发挥。这和今天早鸟文章说的"上下文工程是护城河"是同一个道理。

第三步:建立"AI 输出准入标准"

在团队里明确列出 AI 生成代码必须满足的清单:

没有准入标准,AI 输出就是没有质量控制的流水线产品。

第四步:缩小 AI 的任务粒度

让 AI 一次性写一个完整模块 → slop 率 80%+。
让 AI 写一个具体的函数,给定输入输出签名和边界条件 → slop 率可以降到 30% 以下。

任务粒度越小,slop 鸿沟越窄。这不是模型的问题,是 prompt 设计的问题。

💡 核心 Takeaway

Slop 鸿沟不是模型能力的瓶颈,是工程体系的瓶颈。

模型会越来越强——Fable 5 比 Opus 4.8 强,下一个模型又比 Fable 5 强。但如果你没有一套把 AI 输出转化为生产代码的工程体系,模型再强也只是生成 slop 的速度更快而已。

Amazon 员工给 AI 起绰号"Sloppenheimer"不是在嘲笑 AI——他们在嘲笑一个没有做好准备的工程体系被强推 AI 工具的荒诞。

六、写在最后

今天 HN 上两个最火的故事放在一起看特别有意思:一边是 Anthropic 发布有史以来最强的编程模型,一边是 Amazon 员工在 Slack 里嘲笑公司的 AI 输出。

这两个故事不是矛盾的。它们是同一个现象的两面:AI 的能力在飙升,但 AI 的信任度在下降。中间的差值,就是 Slop 鸿沟。

跨过这道鸿沟的方法不是等下一个更强的模型。而是建立一套让你的团队真正信任 AI 输出的工程体系

模型是商品。工程体系才是壁垒。