一、"Sloppenheimer":当员工给公司 AI 起绰号
今天 HN 上有一篇文章引起了不小的讨论:Amazon 的员工在 Slack 里给公司 AI 工具的起名叫"Sloppenheimer"——把"slop"(垃圾内容)和"Oppenheimer"拼在一起,讽刺意味拉满。
这不是什么匿名爆料,而是实打实的内部现象。Jeff Bezos 在公开场合大谈 AI 将带来"前所未有的生产力提升",甚至预测 AI 会让食品、住房变便宜,双收入家庭不再需要两份收入。但在同一栋楼里,员工们把 AI 生成的代码叫做"slop",在 Slack 群里互相吐槽 AI 工具的输出质量。
Amazon 员工 mock 公司 AI 工具,把 AI 输出叫做"slop",并开玩笑说公司激励员工使用 AI 工具的尝试已经失败了。
— 404 Media 报道,HN 128 分,64 条评论
这不是 Amazon 独有的问题。这背后反映的是一个正在被忽视的系统性矛盾:AI 模型的能力在基准测试中屡创新高,但实际产出的质量却让用户越来越不信任。
我给这个矛盾起了一个名字——"Slop 鸿沟"(The Slop Gap)。
二、Slop 鸿沟:能力与信任的断层线
Slop 鸿沟说的是一件事:AI 能做的事情,和人们愿意接受它做的事情之间,存在一道巨大的落差。
(Claude Opus 4.8)
(同一基准)
都在持续"进步"
Cognition 的 FrontierCode 基准测试直接戳破了 AI 编程的泡沫。它不问"代码能不能跑",而是问一个更尖锐的问题:这段代码的维护者,愿不愿意把它合并进你的代码库?
结果呢?最强的模型,合并率也只有 13.4%。也就是说,每 100 行 AI 生成的代码,有 86 行会被维护者拒绝。GPT-5.5 更是只有 6.3%——接近于零。
这就是 Slop 鸿沟的量化体现。模型在基准测试里的分数越来越高,但"能跑"和"能维护"之间的鸿沟却在扩大。
💡 Slop 鸿沟公式:模型能力 ↑ × 生产标准 ↑↑ = 用户信任 ↓
模型能力在增长,但人们对生产代码的标准增长更快。结果是信任感反而在下降。
三、为什么会有 Slop 鸿沟?三个根因
1. "能跑"≠"好代码"
现有的 AI 编程评测几乎都在测"能不能通过测试用例"。但真实世界的代码不是通过测试就完事了。它需要:
- 可读性——三个月后的你能看懂吗
- 一致性——和项目现有代码风格匹配吗
- 可维护性——改了 A 会不会影响 B
- 安全性——有没有引入新的攻击面
- 边界处理——异常输入会崩溃吗
模型在这些维度上大面积翻车。它能写出跑通的代码,但写不出你团队愿意 merge 的代码。
2. 量越大,slop 越多
这是一个反直觉的现象:AI 生成代码的速度越快,审查成本反而越高。
如果一个程序员一小时写 50 行代码,你 review 一下很快。如果 AI 一分钟生成 500 行代码,你需要花三倍的时间去逐行检查——因为 AI 的错误往往是隐蔽的:逻辑看起来对,测试也通过了,但架构上有隐患。
Amazon 员工的"slop"吐槽本质上是在说:你给我看的东西比我直接写还费事。
3. 期望与现实的错位
公司管理层看到的是基准测试分数:"我们的 AI 编程模型达到了 SOTA 水平!"。员工看到的是实际输出:"这段代码我不敢 merge"。
这两个视角之间存在一个信息断层。管理层用 benchmark 来衡量 AI 价值,员工用 merge rate 来衡量。前者在上升,后者在原地踏步。
⚠️ 注意:这不代表 AI 编程没有价值。它代表 AI 编程的价值被错误地衡量了——用 benchmark 而不是用实际生产标准。
四、另一面:Fable 5 发布当天,HN 的沉默抗议
更有意思的是今天的时间线。就在员工吐槽 AI 代码质量的同一天,Anthropic 发布了 Claude Fable 5——号称在软件工程、知识工作、视觉推理上全面 SOTA,价格还降了一半($10/M input tokens)。
Stripe 说 Fable 5 把"几个月的工程压缩到几天"——在一个 5000 万行 Ruby 代码库里完成了一次全量迁移。这个案例确实 impressive。
但仔细想想,Stripe 能做到这一点,靠的不是"Fable 5 很强",而是:Stripe 有极高的工程标准,知道怎么给 AI 下指令,知道怎么验证 AI 的输出,知道哪些地方可以自动化哪些不行。
Stripe 报告称 Fable 5 将数月的工程工作压缩到了几天。但这不是因为模型强——是因为 Stripe 的工程体系强。同样的模型放到一个没有代码规范、没有 review 流程、没有自动化测试的团队手里,产出的 slop 会更多。
这就是关键:决定 AI 产出质量的不是模型本身,而是使用模型的工程体系。Fable 5 在 Stripe 是利器,在 Amazon 的某些团队里就是 slop 生成器。
| 维度 | Stripe(高工程标准) | Amazon 部分团队(低工程标准) |
|---|---|---|
| 代码规范 | ✅ 严格,AI 有清晰参照 | ❌ 松散,AI 输出无约束 |
| Review 流程 | ✅ 自动化 + 人工双重把关 | ❌ 依赖个人判断 |
| 测试覆盖率 | ✅ AI 输出可自动验证 | ⚠️ 部分覆盖,slop 混入 |
| AI 使用策略 | ✅ 明确哪些场景用、哪些不用 | ❌ "强制使用",一刀切 |
| 结果 | 数月工作 → 数天 | "Sloppenheimer" 😂 |
五、跨越 Slop 鸿沟:实操框架
如果你在用 AI 写代码(谁不是呢),这里有四条缩小 Slop 鸿沟的具体做法:
第一步:用 merge rate 而不是 benchmark 衡量 AI
忘掉那些跑分。跟踪一个更简单的指标:你的团队 merge 了多少比例的 AI 生成代码。低于 30%?说明 AI 输出和你们的工程标准不匹配,不是"模型不够强"的问题。
第二步:给 AI 一个"风格锚点"
不要只给 AI 一个任务描述。给它 2-3 个你们项目的真实代码片段作为风格参照。模型在模仿已知风格时的输出质量远高于自由发挥。这和今天早鸟文章说的"上下文工程是护城河"是同一个道理。
第三步:建立"AI 输出准入标准"
在团队里明确列出 AI 生成代码必须满足的清单:
- 必须通过现有全部测试
- 必须包含注释和文档字符串
- 必须符合项目的命名和格式化规范
- 必须没有新的 linting 警告
- 必须经过至少一个人的 review
没有准入标准,AI 输出就是没有质量控制的流水线产品。
第四步:缩小 AI 的任务粒度
让 AI 一次性写一个完整模块 → slop 率 80%+。
让 AI 写一个具体的函数,给定输入输出签名和边界条件 → slop 率可以降到 30% 以下。
任务粒度越小,slop 鸿沟越窄。这不是模型的问题,是 prompt 设计的问题。
Slop 鸿沟不是模型能力的瓶颈,是工程体系的瓶颈。
模型会越来越强——Fable 5 比 Opus 4.8 强,下一个模型又比 Fable 5 强。但如果你没有一套把 AI 输出转化为生产代码的工程体系,模型再强也只是生成 slop 的速度更快而已。
Amazon 员工给 AI 起绰号"Sloppenheimer"不是在嘲笑 AI——他们在嘲笑一个没有做好准备的工程体系被强推 AI 工具的荒诞。
六、写在最后
今天 HN 上两个最火的故事放在一起看特别有意思:一边是 Anthropic 发布有史以来最强的编程模型,一边是 Amazon 员工在 Slack 里嘲笑公司的 AI 输出。
这两个故事不是矛盾的。它们是同一个现象的两面:AI 的能力在飙升,但 AI 的信任度在下降。中间的差值,就是 Slop 鸿沟。
跨过这道鸿沟的方法不是等下一个更强的模型。而是建立一套让你的团队真正信任 AI 输出的工程体系。
模型是商品。工程体系才是壁垒。