GLM 5.2 登顶 LiveBench Agentic Coding 榜首

📅 2026年06月20日 · 快讯

国产大模型在智能体编程(Agentic Coding)赛道又往前迈了一步。智谱 AI 的 GLM 5.2 最新评测结果出炉:在 LiveBench 的 Agentic Coding 榜单上拿到第一名,同时在 Artificial Analysis 的评测中也取得了相当靠前的成绩。

LiveBench 与 Agentic Coding 意味着什么

先解释一下这两个评测为什么值得注意。LiveBench 是一个为了避免"刷榜污染"而设计的基准——它定期更换题目并限制公开测试集,目的是让模型没法靠背诵训练数据来作弊,更能反映真实能力。

而其中的 "Agentic Coding"(智能体编程)赛道,测的不是"模型能不能写对一段代码",而是"模型能不能作为一个智能体,自主地完成多步骤的编程任务"——理解需求、拆解任务、调用工具、运行验证、根据报错自我修正。这恰恰是当下 AI 编程助手最难、也最有商业价值的能力。

GLM 5.2 在这个赛道登顶,意味着在"自主完成复杂编程任务"这件事上,它的表现已经压过了同期的一众对手。

Artificial Analysis 上的表现

另一个独立评测平台 Artificial Analysis 给出的结果与 LiveBench 趋势相似。Artificial Analysis 以综合性的能力与性价比评估见长,经常被业界用来横向对比各家模型的综合实力。GLM 5.2 在该平台上的表现,进一步佐证了它这一代的整体提升并非单点突破。

国产模型的节奏

这条消息之所以引发关注,是因为它代表了一个趋势:在 AI 编程代理这个被 Claude(Anthropic)长期领先的领域,国产模型正在快速逼近甚至在某些维度反超。

对开发者而言,这意味着选择变多了。过去提到"用 AI 写代码",主流答案高度集中;如今 GLM 5.2 这类模型在 Agentic Coding 上展现出的竞争力,让国产方案在成本、本地化、API 接入便捷度等方面具备了实际的可选性。尤其是在结合 Claude Code 风格的本地代理工作流时,一个表现强劲又相对经济的模型后端,是很多团队乐见其成的。

冷静看待

当然,基准测试和真实工程场景之间总有差距。榜单第一不代表它在任何具体项目里都最好用——代码生成涉及的语言生态、上下文长度、工具调用稳定性、对复杂代码库的理解,都需要在实际工作流中验证。但作为国产模型在智能体编程方向上的一个标志性节点,GLM 5.2 的这份成绩单确实值得留意。

参考来源

🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具