您的位置:文章正文

智谱发布可持续工作8小时的旗舰模型GLM

加入日期:2026/4/8 11:24:58

  中财投资网(www.161588.com)2026/4/8 11:24:58讯:

IT之家4月8日消息,智谱正式发布新一代开源模型 GLM-5.1,官方称这是目前全球最强的开源模型。据官方介绍,其是唯一达到 8 小时级持续工作的开源模型,在最接近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1 实现国产模型首次超越 Opus 4.6。

OpenRouter 显示,伴随此次发布,智谱 GLM 再度提价 10%。调价后,GLM-5.1 在 Coding 场景的缓存命中 Token 价格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。

IT之家附官方详细介绍如下:

从 3 分钟的 Vibe Coding(氛围编程)到 30 分钟的 Agentic Engineering(智能体工程),再到本次我们带来的 8 小时 Long-Horizon Task(长程任务),GLM-5.1 再次取得突破。

GLM-5.1 是我们迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1 大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过 8 小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。

代码能力是模型智能水平进一步提升的关键。下图是业内最具代表性的三个代码评测基准的平均结果,包括衡量模型专业软件开发工作的 SWE-Bench Pro、操作命令行解决问题的 Terminal-Bench 2.0、从零构建完整代码仓库的 NL2Repo,GLM-5.1 取得全球模型第三、国产模型第一、开源模型第一。

在最接近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1 刷新全球最佳成绩,超过 GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug,是衡量模型能否胜任专业软件开发的最硬指标。

你睡觉的 8 小时,是模型上班的 8 小时

过去两年,行业用 Benchmark 衡量模型有多智能。我们认为,下一阶段的衡量标准应该是能工作多久,即模型在Long-Horizon Task中的表现,能独立完成多长时间的人类任务。

在长程任务中保持稳定输出,模型面对的不只是更大代码量,而是一连串复杂的工程决策点:主动跑 benchmark、定位瓶颈、修改方案、再跑测试。这对模型提出更高的要求,需要像人类工程师一样,形成实验 分析 优化的完整闭环,而不是写完代码停下来等人打分。

在 METR 榜单的同等评估标准下,GLM-5.1 是唯一达到 8 小时级持续工作的开源模型,也是全球范围内除 Claude Opus 4.6 外少数具备这一能力的模型。我们的终极目标是全自治智能体(AutonomousAgent),模型 724 小时不间断地分解目标、执行交付、自我评价与纠正、自我进化,从此无需人类介入。

看看模型的一天 8 小时工作,都能做些什么。

场景一:8 小时从零构建 Linux 桌面

白天画好架构草图,睡前交给 GLM-5.1,早上醒来已产出完整系统。历时 8 小时整,执行 1200 多步,20 分钟时产生第一个有意义的成果,8 小时产出了一套功能完善的 Linux 桌面系统,包括:完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库等,4.8MB 的配套文件,这相当于一个 4 人团队一周的开发工作量。

以下视频是 GLM-5.1 在 8 小时内的代码提交结果:这些不是四五行的小 patch,每一次提交都是具有实质意义的系统级演进,而且全程没有人参与测试、审查代码。模型甚至给自己的代码写了一些回归测试,而且跑过了。

场景二:655 次迭代打破向量数据库优化瓶颈

向量数据库是 AI 搜索和推荐系统背后的核心引擎,而近似最近邻检索则是其中非常关键、也非常考验算法与工程能力的一环。这个过程既要求模型掌握 IVF、HNSW、向量量化等底层算法知识,也要求它具备真实的工程判断力,能够在一条优化路径碰壁时主动识别瓶颈、切换策略,而不是盲目重复同一个方向。

GLM-5.1 不是只会微调参数,而是一路自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由,再到提前剪枝的整套优化链条。在 655 轮迭代里,它持续自主跑 Benchmark、定位瓶颈、调整方案,最终把向量数据库的查询吞吐从初次交付的 3108 QPS 一路推到 21472 QPS,提升到初始正式版本的 6.9 倍。

场景三:1000 轮工具调用优化真实机器学习模型负载

GLM-5.1 展现的长时间工作和自进化能力,让其从单纯的代码生成器进化为主动的系统优化器。我们在涵盖 50 个真实机器学习计算负载的 KernelBench Level 3 优化基准上,让 GLM-5.1 对每个负载独立进行持续优化。在超过 24 小时的不间断迭代中,GLM-5.1 自主完成了多轮编译 测试 分析 重写循环,最终取得 3.6 倍的几何平均加速比,显著高于torch.compilemax-autotune 模式的 1.49 倍。

模型展现出的优化深度与创造力尤其值得关注。GLM-5.1 能够自主编写定制 Triton Kernel 和 CUDA Kernel,运用 cuBLASLt epilogue 融合并实施 shared memory tiling 与 CUDA Graph 优化。这些优化策略覆盖了从高层算子融合到微架构级调优的完整技术栈,每一步都是模型的自主决策。

这一结果表明,在 GPU 内核优化这一传统上高度依赖专家经验的领域,AI 模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。在 GPU 以及更广泛的高性能计算领域,长期制约工程效率的优化瓶颈正在被 AI 逐步打破。

Behind the 8h

让模型跑 8 小时并不难,真正难的是让第 8 小时的工作仍然有效。

此前包括 GLM-5 在内的模型,在面对复杂优化任务时,往往在早期快速取得收益后就进入瓶颈期。它们会反复尝试已知的优化手段,但无法在一条路走不通时主动切换策略。

GLM-5.1 的训练目标是突破这个瓶颈。在向量数据库优化任务中,我们观察到一个典型的 " 阶梯型 " 优化轨迹:模型在一个固定策略内进行增量调优,当收益趋于停滞时,主动分析 Benchmark 日志、定位当前瓶颈,然后跳转到结构性不同的方案 从全库扫描到 IVF 分桶,从单精度到量化粗排,从单层路由到两级剪枝。每一次跳跃都伴随着短暂的 Recall 下降,因为模型在探索新方向时会暂时打破约束,随后再调回来。这个 " 打破-修复 " 的循环本身就是有效优化的标志。

在 KernelBench 上,我们通过对比多个模型的优化曲线,更直接地看到了这个差异。GLM-5 在前期上升较快,但很早就趋于平坦;GLM-5.1 在同样的时间窗口内持续上升得更久,最终达到了 GLM-5 的 1.4 倍。关键在于模型能把 " 有效优化 " 的窗口延伸多远。

在 Linux 桌面构建任务中,挑战又不一样了。前两个场景都有明确的数值指标(QPS、加速比)可以用来衡量每一步是否有效,但构建一个完整的桌面系统没有单一指标,什么算 " 好 " 取决于功能完整度、视觉一致性、交互质量的综合判断。这要求模型具备初步的自我评估能力:在每一轮执行后审视自己的产出,判断哪里需要改进、继续优化。这是三个场景中反馈信号最弱的一个,也是当前最需要突破的方向。

我们认为,延长模型的 " 有效工作时长 " 是提升智能体能力的一个基础维度。在这条路上仍然有显著的技术挑战:如何克服模型面对复杂任务的上下文焦虑、如何在数千次工具调用后保持执行的一致性、如何更早地跳出局部最优,以及更重要的是如何在没有确定数值指标的任务上建立可靠的自我评估机制。GLM-5.1 是我们在这个方向上迈出的一步,我们会持续推进。

GLM-5.1 不只是一个更强的模型,而是一种新的技术范式的开启。此刻,尝试给它一个指令,然后离开 8 小时。


编辑: 来源: