fablize：用实证对比把 Fable 的"做事纪律"装进 Claude Opus

📅 2026年06月21日 · 技术

当新的强模型横空出世，大家最爱问的就是「它到底比上一个强在哪」。fablize 的作者没停留在主观感受上，而是真的做了一组对照实验：用 Fable 5 和 Opus 4.8 跑了 19 次成对测试，加上 26 段真实工作会话、约 1500 次工具调用，然后把结论做成了一个 Claude Code 插件。

对比得到的反直觉结论

实验里最关键的发现是：在「有明确答案的封闭任务」（写代码、做逻辑推理、构建项目）上，两个模型其实打平。真正的差距出现在开放式工作上，而差距的本质是「把一个推论再多走一步的深度」。

但作者进一步发现，这种深度属于模型能力本身——靠写提示词、靠外层脚手架是塞不进去的。他用一个注入实验验证了这一点：让 Opus 去复现 Fable 自己能发现的缺陷，结果复现不出来。换句话说，天花板是模型决定的，插件拔不高它。

那插件到底能做什么

fablize 的聪明之处在于它换了个目标：不抬高天花板，而是让模型真正够到自己的天花板。那些「做事的好习惯」是可以迁移的，作者把经过验证的部分做成了 Claude Code 插件，让 Opus（或任何 Claude 模型）像 Fable 一样把任务盯到底：

验证接地：跑一遍自己写的代码、观察真实产物，而不是嘴上说「应该没问题」
多任务完成 + 证据门：拆解任务、设置检查点，没有证据就不许宣称完成
系统性排查：复现 → 列假设 → 串因果链，而不是乱猜
防早停：用确定性钩子抓住「我待会儿再做」这种半途而废

为什么这个思路值得借鉴

fablize 最大的价值不是又一个 Claude Code 插件，而是它示范了一种态度：别轻信「某模型更强」的传言，用受控对比去拆解差距到底来自能力还是来自习惯。当能力无法迁移时，把「可迁移的程序」固化成工具，照样能拿到肉眼可见的提升。对于经常给编码 Agent 调参、做 prompt 工程的开发者，这种「先量后做」的工程化思路，比任何一句魔法提示词都更值得收藏。

参考来源

fivetaku/fablize — GitHub