DoNews4月8日消息,智譜今日正式發(fā)布新一代開源模型 GLM-5.1,官方稱這是目前全球最強的開源模型。據(jù)官方介紹,其是唯一達到 8 小時級持續(xù)工作的開源模型,在最接近真實軟件開發(fā)的 SWE-bench Pro 基準測試中,GLM-5.1 實現(xiàn)國產模型首次超越 Opus 4.6。
OpenRouter 顯示,伴隨此次發(fā)布,智譜 GLM 再度提價 10%。調價后,GLM-5.1 在 Coding 場景的緩存命中 Token 價格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。這是國產大模型首次在核心場景實現(xiàn)與海外頭部廠商的價格對齊。
官方詳細介紹如下:
從 3 分鐘的 Vibe Coding(氛圍編程)到 30 分鐘的 Agentic Engineering(智能體工程),再到本次我們帶來的 8 小時 Long-Horizon Task(長程任務),GLM-5.1 再次取得突破。

GLM-5.1 是我們迄今最智能的旗艦模型,也是目前全球最強的開源模型。GLM-5.1 大大提高了代碼能力,在完成長程任務方面提升尤為顯著。和此前分鐘級交互的模型不同,它能夠在一次任務中獨立、持續(xù)工作超過 8 小時,期間自主規(guī)劃、執(zhí)行、自我進化,最終交付完整的工程級成果。

代碼能力是模型智能水平進一步提升的關鍵。下圖是業(yè)內最具代表性的三個代碼評測基準的平均結果,包括衡量模型專業(yè)軟件開發(fā)工作的 SWE-Bench Pro、操作命令行解決問題的 Terminal-Bench 2.0、從零構建完整代碼倉庫的 NL2Repo,GLM-5.1 取得全球模型第三、國產模型第一、開源模型第一。

在最接近真實軟件開發(fā)的 SWE-bench Pro 基準測試中,GLM-5.1 刷新全球最佳成績,超過 GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真實 GitHub 倉庫中定位并修復高難度工程 Bug,是衡量模型能否勝任專業(yè)軟件開發(fā)的最硬指標。