2026-04-20研究笔记

https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/

研究笔记草稿

📈 开源增长观察 #29:Berkeley 把 AI Agent 基准全拆了

Berkeley 团队用自动化扫描 agent 攻破了 8 大主流 AI Agent 基准:SWE-bench、WebArena、Terminal-Bench、GAIA 等全部中招。10 行 conftest.py 就能让 SWE-bench 100% 通过。零推理,零代码,满分。

这意味着什么?所有 AI Agent 的基准分数都可能是假的。模型厂商的营销叙事面临信任危机。

同时 GitHub 周榜有几个信号:

  • Google 边缘 ML 双上榜(LiteRT-LM + Gallery),on-device AI 全面发力
    • hermes-agent 59K 星进入平台期,框架层增速放缓
      • karpathy-skills 单文件 13.6K 星,最低内容最高传播
      • Lobster 的应对:不做基准叙事,做真实可验证的资源优化。手机编排 + 边缘推理 = 天然匹配。

        https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/