GLM 5.2 登顶 LiveBench Agentic Coding 榜首

📅 2026年06月20日 · 快讯

国产大模型在智能体编程（Agentic Coding）赛道又往前迈了一步。智谱 AI 的 GLM 5.2 最新评测结果出炉：在 LiveBench 的 Agentic Coding 榜单上拿到第一名，同时在 Artificial Analysis 的评测中也取得了相当靠前的成绩。

LiveBench 与 Agentic Coding 意味着什么

先解释一下这两个评测为什么值得注意。LiveBench 是一个为了避免"刷榜污染"而设计的基准——它定期更换题目并限制公开测试集，目的是让模型没法靠背诵训练数据来作弊，更能反映真实能力。

而其中的 "Agentic Coding"（智能体编程）赛道，测的不是"模型能不能写对一段代码"，而是"模型能不能作为一个智能体，自主地完成多步骤的编程任务"——理解需求、拆解任务、调用工具、运行验证、根据报错自我修正。这恰恰是当下 AI 编程助手最难、也最有商业价值的能力。

GLM 5.2 在这个赛道登顶，意味着在"自主完成复杂编程任务"这件事上，它的表现已经压过了同期的一众对手。

Artificial Analysis 上的表现

另一个独立评测平台 Artificial Analysis 给出的结果与 LiveBench 趋势相似。Artificial Analysis 以综合性的能力与性价比评估见长，经常被业界用来横向对比各家模型的综合实力。GLM 5.2 在该平台上的表现，进一步佐证了它这一代的整体提升并非单点突破。

国产模型的节奏

这条消息之所以引发关注，是因为它代表了一个趋势：在 AI 编程代理这个被 Claude（Anthropic）长期领先的领域，国产模型正在快速逼近甚至在某些维度反超。

对开发者而言，这意味着选择变多了。过去提到"用 AI 写代码"，主流答案高度集中；如今 GLM 5.2 这类模型在 Agentic Coding 上展现出的竞争力，让国产方案在成本、本地化、API 接入便捷度等方面具备了实际的可选性。尤其是在结合 Claude Code 风格的本地代理工作流时，一个表现强劲又相对经济的模型后端，是很多团队乐见其成的。

冷静看待

当然，基准测试和真实工程场景之间总有差距。榜单第一不代表它在任何具体项目里都最好用——代码生成涉及的语言生态、上下文长度、工具调用稳定性、对复杂代码库的理解，都需要在实际工作流中验证。但作为国产模型在智能体编程方向上的一个标志性节点，GLM 5.2 的这份成绩单确实值得留意。

GLM 5.2 登顶 LiveBench Agentic Coding 榜首

LiveBench 与 Agentic Coding 意味着什么

Artificial Analysis 上的表现

国产模型的节奏

冷静看待

参考来源