fablize:用实证对比把 Fable 的"做事纪律"装进 Claude Opus
📅 2026年06月21日 · 技术
当新的强模型横空出世,大家最爱问的就是「它到底比上一个强在哪」。fablize 的作者没停留在主观感受上,而是真的做了一组对照实验:用 Fable 5 和 Opus 4.8 跑了 19 次成对测试,加上 26 段真实工作会话、约 1500 次工具调用,然后把结论做成了一个 Claude Code 插件。
对比得到的反直觉结论
实验里最关键的发现是:在「有明确答案的封闭任务」(写代码、做逻辑推理、构建项目)上,两个模型其实打平。真正的差距出现在开放式工作上,而差距的本质是「把一个推论再多走一步的深度」。
但作者进一步发现,这种深度属于模型能力本身——靠写提示词、靠外层脚手架是塞不进去的。他用一个注入实验验证了这一点:让 Opus 去复现 Fable 自己能发现的缺陷,结果复现不出来。换句话说,天花板是模型决定的,插件拔不高它。
那插件到底能做什么
fablize 的聪明之处在于它换了个目标:不抬高天花板,而是让模型真正够到自己的天花板。那些「做事的好习惯」是可以迁移的,作者把经过验证的部分做成了 Claude Code 插件,让 Opus(或任何 Claude 模型)像 Fable 一样把任务盯到底:
- 验证接地:跑一遍自己写的代码、观察真实产物,而不是嘴上说「应该没问题」
- 多任务完成 + 证据门:拆解任务、设置检查点,没有证据就不许宣称完成
- 系统性排查:复现 → 列假设 → 串因果链,而不是乱猜
- 防早停:用确定性钩子抓住「我待会儿再做」这种半途而废
为什么这个思路值得借鉴
fablize 最大的价值不是又一个 Claude Code 插件,而是它示范了一种态度:别轻信「某模型更强」的传言,用受控对比去拆解差距到底来自能力还是来自习惯。当能力无法迁移时,把「可迁移的程序」固化成工具,照样能拿到肉眼可见的提升。对于经常给编码 Agent 调参、做 prompt 工程的开发者,这种「先量后做」的工程化思路,比任何一句魔法提示词都更值得收藏。
参考来源
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具