智谱发布可继续义务8小时的旗舰模型GLM
媒体4月8,智谱正式发布新一代开源模型 GLM-5.1,官方称这是目前全球最强的开源模型。据官方引见,其是独一抵达 8 小时级继续义务的开源模型,在最靠近真实的 SWE-bench Pro 基准测试中,GLM-5.1 成功国产模型初次跨越 Opus 4.6。
OpenRouter 显示,随同此次发布,智谱 GLM 再度降价 10%。调价后,GLM-5.1 在 Coding 场景的缓存命中 Token 多少钱已靠近 Anthropic 旗下 Claude Sonnet4.6 水平。这是国产大模型初次在中心场景成功与海外头部厂商的多少钱对齐。
媒体附官方详细引见如下:
从 3 分钟的 Vibe Coding(气氛编程)到 30 分钟的 Agentic Engineering(自动体工程),再到本次我们带来的 8 小时 Long-Horizon Task(长程义务),GLM-5.1 再次取得打破。
GLM-5.1 是我们迄今最自动的旗舰模型,也是目前全球最强的开源模型。GLM-5.1 大大提高了代码才干,在成功长程义务方面优化尤为清楚。和此前分钟级交互的模型不同,它能够在一次性性义务中独立、继续义务逾越 8 小时,时期自主规划、行动、自我退步,最终交付完整的工程级效果。
代码才干是模型自动水平进一步优化的关键。下图是业内最具代表性的三个代码评测基准的平均结果,包括权衡模型专业软件开发义务的 SWE-Bench Pro、操作命令行处置疑问的 Terminal-Bench 2.0、从零构建完整代码仓库的 NL2Repo,GLM-5.1 取得全球模型第三、国产模型第一、开源模型第一。
在最靠近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1 刷新全球最佳效果,逾越 GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug,是权衡模型能否胜任专业软件开发的最硬目的。
你睡觉的 8 小时,是模型任务的 8 小时
过去两年,行业用 Benchmark 权衡模型有多自动。我们以为,下一阶段的权衡规范应该是“能义务多久”,即模型在Long-Horizon Task中的表现,能独立成功多长时期的人类义务。
在长程义务中坚持稳如泰山输入,模型面对的不只是更大代码量,而是一连串复杂的工程决策点:主动跑 benchmark、定位瓶颈、修正计划、再跑测试。这对模型提出更高的要求,要求像人类工程师一样,构成“实验 → 剖析 → 优化”的完整闭环,而不是写完代码停上去等人打分。
在 METR 榜单的同等评价规范下,GLM-5.1 是独一抵达 8 小时级继续义务的开源模型,也是全球范围内除 Claude Opus 4.6 外少数具有这一才干的模型。我们的终极目的是全自治自动体(AutonomousAgent),模型 7×24 小时不延续地分解目的、行动交付、自我评价与纠正、自我退步,从此无需人类介入。
看看模型的一天 8 小时义务,都能做些什么。
场景一:8 小时从零构建 Linux 桌面
白昼画好架构草图,睡前交给 GLM-5.1,早上醒来已产出完整系统。历时 8 小时整,行动 1200 多步,20 分钟时出现第一个无意义的效果,8 小时产出了一套性能完善的 Linux 桌面系统,包括:完整的桌面、窗口控制器、外形栏、运转程序、VPN 控制器、中文字体支持、库等,4.8MB 的配套文件,这相当于一个 4 人团队一周的开发义务量。
以下视频是 GLM-5.1 在 8 小时内的代码提交结果:这些不是四五行的小 patch,每一次性性提交都是具有实质意义的系统级演进,而且全程没有人介入测试、审查代码。模型甚至给自己的代码写了一些回归测试,而且跑过了。
场景二:655 次迭代打破向量优化瓶颈
向量数据库是 AI 搜寻和引见系统面前的中心引擎,而近似最近邻检索则是其中十分关键、也十分考验与工程才干的一环。这个环节既要求模型掌握 IVF、HNSW、向量量化等底层算法知识,也要求它具有真实的工程判别力,能够在一条优化途径受阻时主动识别瓶颈、切换战略,而不是自觉重复同一个方向。
GLM-5.1 不是只会微调参数,而是一路自己成功了从全库扫描切到 IVF 分桶召回、引入半精度紧缩、介入量化粗排、做两级路由,再到延迟剪枝的整套优化链条。在 655 轮迭代里,它继续自主跑 Benchmark、定位瓶颈、调整计划,最终把向量数据库的查询吞吐从初次交付的 3108 QPS 一路推到 21472 QPS,优化到初始正式版本的 6.9 倍。
场景三:1000 轮工具调用优化真实机器学习模型负载
GLM-5.1 展现的长时期义务和自退步才干,让其从单纯的“代码生成器”退步为“主动的系统优化器”。我们在涵盖 50 个真实机器学习计算负载的 KernelBench Level 3 优化基准上,让 GLM-5.1 对每个负载独立启动继续优化。在逾越 24 小时的不延续迭代中,GLM-5.1 自主成功了多轮编译 — 测试 — 剖析 — 重写循环,最终取得 3.6 倍的几何平均减速比,清楚高于torch.compilemax-autotune 方式的 1.49 倍。
模型展现出的优化深度与发明力尤其值得关注。GLM-5.1 能够自主编写定制 Triton Kernel 和 CUDA Kernel,运用 cuBLASLt epilogue 融兼并实施 shared memory tiling 与 CUDA Graph 优化。这些优化战略掩盖了从高层算子融合到微架构级调优的完整技术栈,每一步都是模型的自主决策。
这一结果标明,在 GPU 内核优化这一传统上高度依赖专家阅历的范围,AI 模型曾经展现出从疑问剖析、计划设计到迭代调优的端到端自主义务才干。在 GPU 以及更普遍的高性能计算范围,终年制约工程效率的优化瓶颈正在被 AI 逐渐打破。
Behind the 8h
让模型跑 8 小时并不难,真正难的是让第 8 小时的义务依然有效。
此前包括 GLM-5 在内的模型,在面对复杂优化义务时,往往在早期加快取得收益后就进入瓶颈期。它们会重复尝试已知的优化手段,但无法在一条路走不通时主动切换战略。
GLM-5.1 的训练目的是打破这个瓶颈。在向量数据库优化义务中,我们观察到一个典型的 " 阶梯型 " 优化轨迹:模型在一个固定战略内启动增量调优,当收益趋于停滞时,主动剖析 Benchmark 日志、定位以后瓶颈,然后跳转到结构性不同的计划 —— 从全库扫描到 IVF 分桶,从单精度到量化粗排,从单层路由到两级剪枝。每一次性性腾跃都随同着耐久的 Recall 降低,由于模型在探求新方向时会暂时打破束缚,随后再调回来。这个 " 打破-修复 " 的循环自身就是有效优化的标志。
在 KernelBench 上,我们经过对比多个模型的优化曲线,更直接地看到了这个差异。GLM-5 在前期上升较快,但很早就趋于平整;GLM-5.1 在相同的时期窗口内继续上升得更久,最终抵达了 GLM-5 的 1.4 倍。关键在于模型能把 " 有效优化 " 的窗口延伸多远。
在 Linux 桌面构建义务中,应战又不一样了。前两个场景都有明白的数值目的(QPS、减速比)可以用来权衡每一步能否有效,但构建一个完整的桌面系统没有单一目的,什么算 " 好 " 取决于性能完整度、视觉分歧性、交互质量的综合判别。这要求模型具有初步的自我评价才干:在每一轮行动后审视自己的产出,判别哪里要求改良、继续优化。这是三个场景中反响信号最弱的一个,也是以后最要求打破的方向。
我们以为,延伸模型的 " 有效义务时长 " 是优化自动体才干的一个基础维度。在这条路上依然有清楚的技术应战:如何抑制模型面对复杂义务的上下文焦虑、如何在数千次工具调用后坚持行动的分歧性、如何更早地跳出部分最优,以及更关键的是如何在没有确定数值目的的义务上树立牢靠的自我评价机制。GLM-5.1 是我们在这个方向上迈出的一步,我们会继续推进。
GLM-5.1 不只是一个更强的模型,而是一种新的技术范式的开启。此刻,尝试给它一个指令,然后分开 8 小时。
财经频道更多独家谋划、专家专栏,不要钱查阅>>
智谱AI新模型GLM-4.5,上线就开源,在技术上有什么打破?
智谱AI新发布的GLM-4.5在技术上的打破关键体如今以下几个方面:
GLM-4.5经过架构创新、才干融合、训练优化和本钱管控,在性能、灵敏性、性价比和开源生态上成功了片面打破,为智能体运行开发提供了新一代基础设备,也推进了国产大模型向更高水平迈进。
低调做人,高调做事的智谱GLM 4.5来了
智谱GLM 4.5以低调务虚的技术迭代与高调的性能打破,展现了开源大模型范围的新标杆。
一、GLM 4.5的技术定位:低调务虚的技术迭代智谱GLM系列模型自发布以来,一直以开源基座大模型为中心定位,强调技术普惠与生态共建。 GLM 4.5延续了这一理念,未经过过度营销制造话题,而是经过实践性能优化和技术细节优化表现价值。 例如:
二、GLM 4.5的性能打破:高调的测试评分与场景验证虽然宣传品格低调,但GLM 4.5在性能测试中展现了“秒天秒地”的实力,其高调表现关键体如今以下方面:
三、开源与商业化的平衡:智谱的“低调高调”哲学GLM 4.5的发布表现了智谱团队对开源生态与商业价值的深入了解:
四、行业影响与未来展望GLM 4.5的发布进一步安全了智谱在开源大模型范围的抢先位置,其影响体如今:
结语:GLM 4.5的“低调做人,高调做事”品格,实质是智谱团队对技术实质的回归——以扎实工程才干处置实践疑问,以开放生态推启动业提高。 在AI竞争日益剧烈的今天,这种战略或许能为开源大模型的开展提供新的范式。
智谱开源新一代GLM模型,片面规划AI智能体生态
智谱开源新一代GLM模型,片面规划AI智能体生态
智谱在2024年4月15日的中关村论坛上,正式发布了全球首个集深度研讨与实践操作才干于一体的AI智能体——AutoGLM深思,这一发布标志着智谱在AGI(通用人工智能)范围的又一次性关键打破。 经过这一创新,智谱不只推进了AI智能体技术的更新,还开创了AI Agent的全新运行范式——“边想边干”。
一、AutoGLM深思:AI Agent的新篇章
AutoGLM深思的发布,意味着全球首个能够同时启动深度研讨和实践操作的智能体降生。 这一提高使得AI不再仅仅是一个“思索者”,而是一个可以实践执行义务的“执行者”。 这一中心才干的成功,依赖于智谱自主研发的全栈大模型技术。 在此次发布中,智谱还将中心技术链路开源,旨在进一步推启动业生态的加快开展。
AutoGLM深思具有三大关键特性:
与OpenAI的Deep Research不同,AutoGLM深思不只能深化研讨、提供剖析,还能主动执行义务,从而推进AI Agent从单纯的思索者退化为能够交付结果的智能执行者。 这一打破为未来的AGI开展奠定了坚实的基础。
二、智谱GLM系列模型技术演进:开源再更新
智谱在AutoGLM深思面前,依托的是其自主研发的全栈大模型技术。 这些技术不只支撑了深度思索和实践操作的才干,也标志着智谱在大模型研发中的深沉沉淀。
三、出色性能:推理速度与运行表现的双重打破
智谱的GLM系列模型,不只在推理才干和实践运行的广度上取得了庞大的进度,其出色的性能还体如今多个方面,尤其是在推理速度和配件兼容性上。
四、总结
智谱经过发布AutoGLM深思及其面前的GLM系列模型,不只展现了其在AGI范围的深沉技术沉淀,还经过开源中心技术链路,推进了行业生态的加快开展。 未来,随着技术的不时提高和运行场景的拓展,智谱的AI智能体生态将展现出愈加宽广的前景和有限或许。
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。
金融池


