日本熟女的性生活视频,日屄激情免费视频在线看

DoNews > 商業(yè) > 智譜發(fā)布可持續(xù)工作 8 小時的旗艦模型 GLM-5.1

智譜發(fā)布可持續(xù)工作 8 小時的旗艦模型 GLM-5.1

楊亮 2026-04-08 10:54:25

501653

分享到

DoNews4月8日消息，智譜今日正式發(fā)布新一代開源模型 GLM-5.1，官方稱這是目前全球最強的開源模型。據(jù)官方介紹，其是唯一達到 8 小時級持續(xù)工作的開源模型，在最接近真實軟件開發(fā)的 SWE-bench Pro 基準測試中，GLM-5.1 實現(xiàn)國產模型首次超越 Opus 4.6。

OpenRouter 顯示，伴隨此次發(fā)布，智譜 GLM 再度提價 10%。調價后，GLM-5.1 在 Coding 場景的緩存命中 Token 價格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。這是國產大模型首次在核心場景實現(xiàn)與海外頭部廠商的價格對齊。

官方詳細介紹如下：

從 3 分鐘的 Vibe Coding（氛圍編程）到 30 分鐘的 Agentic Engineering（智能體工程），再到本次我們帶來的 8 小時 Long-Horizon Task（長程任務），GLM-5.1 再次取得突破。

GLM-5.1 是我們迄今最智能的旗艦模型，也是目前全球最強的開源模型。GLM-5.1 大大提高了代碼能力，在完成長程任務方面提升尤為顯著。和此前分鐘級交互的模型不同，它能夠在一次任務中獨立、持續(xù)工作超過 8 小時，期間自主規(guī)劃、執(zhí)行、自我進化，最終交付完整的工程級成果。

代碼能力是模型智能水平進一步提升的關鍵。下圖是業(yè)內最具代表性的三個代碼評測基準的平均結果，包括衡量模型專業(yè)軟件開發(fā)工作的 SWE-Bench Pro、操作命令行解決問題的 Terminal-Bench 2.0、從零構建完整代碼倉庫的 NL2Repo，GLM-5.1 取得全球模型第三、國產模型第一、開源模型第一。

在最接近真實軟件開發(fā)的 SWE-bench Pro 基準測試中，GLM-5.1 刷新全球最佳成績，超過 GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真實 GitHub 倉庫中定位并修復高難度工程 Bug，是衡量模型能否勝任專業(yè)軟件開發(fā)的最硬指標。