
而 Claude Opus 4.6 「不幸」成為背景板,一天之內被超越兩次。
早上 Anthropic 發布了 Claude Mythos Preview,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在身后。這個分數意味著它能在真實 GitHub 倉庫里定位并修復高難度工程 Bug,已經超過了絕大多數人類程序員。
可 Mythos Preview 暫時不對普通用戶開放,與此同時,另外一個超 Opus 4.6 的模型出現了——智譜開源了 GLM-5.1。


說實話,我第一反應是又來了,大模型的「榜單狂歡」,每次發布會都是「史詩級進步」,各家模型在榜單上各領風數小時,這次的劇本有什么不同呢。
APPSO 看完 GLM-5.1 的技術細節和體驗后,帶你看看這個模型是什么水平
從 20 步到 1700 步,持續工作 8 小時
GLM-5.1 最讓人沒想到的,不是跑分,是它能工作多久。
智譜有個一個案例讓我印象比較深。8 小時從零構建 Linux 桌面系統。不是寫幾個 demo 文件那種「構建」,是真的從零開始,畫架構、寫代碼、跑測試、修 bug,歷時 8 小時整,執行了 1200 多步,最后產出了一套功能完善的 Linux 桌面系統。

全程沒有人參與測試、審查代碼。GLM-5.1 甚至給自己的代碼寫了回歸測試,而且跑過了。
知乎程序員博主 Toyama nao 做了個更狠的測試。他給 GLM-5.1 扔了三個工程項目:用 Swift 寫 macOS 的 OpenGL 渲染器、用 Flutter 開發全功能聊天軟件同時用 Golang 開發服務端、自選技術棧開發純網頁端視頻剪輯應用。每個項目跑 10-12 輪提示詞,每輪 1500-2000 字。
結果 GLM-5.1 成為第一個通過他全部測試工程的國產模型,也是第一個正式超越 Sonnet 4.5 Thinking 的國產模型。

去年年底,AI 智能體大約只能完成 20 個步驟。GLM-5.1 現在可以完成 1700 個步驟。這是模型能不能真正「獨立工作」的分水嶺。
智譜在技術報告里解釋了關鍵突破點:以前的模型,包括 GLM-5,會在早期快速取得收益后就進入瓶頸期。它們反復嘗試已知的優化手段,但無法在一條路走不通時主動切換策略。
GLM-5.1 的訓練目標就是突破這個瓶頸,讓模型能夠在一個固定策略內進行增量調優,當收益趨于停滯時,主動分析 Benchmark 日志、定位當前瓶頸,然后跳轉到結構性不同的方案。
向量數據庫優化案例就是典型的「階梯型」優化軌跡。GLM-5.1 用了 655 次迭代,把查詢吞吐從 3108 QPS 一路推到 21472 QPS,提升了 6.9 倍。

在 KernelBench Level 3 優化基準上,GLM-5.1 對 50 個真實機器學習計算負載進行了超過 24 小時的不間斷迭代,最終取得 3.6 倍的幾何平均加速比,顯著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主編寫定制 Triton Kernel 和 CUDA Kernel,運用 cuBLASLt epilogue 融合并實施 shared memory tiling 與 CUDA Graph 優化,覆蓋了從高層算子融合到微架構級調優的完整技術棧。

744B 參數,零英偉達芯片,成本降低 97%
GLM-5.1 的技術規格值得細看:744B 參數的混合專家模型(MoE),每個 token 激活 40B 參數,28.5T tokens 訓練數據,集成了 DeepSeek Sparse Attention(DSA)來降低部署成本同時保持長上下文能力。200K 上下文窗口,最大輸出 131,072 tokens。
更關鍵的是,整個模型全部使用華為昇騰 910B 芯片訓練,沒有英偉達 GPU 參與。在算力被卡脖子的情況下,國產模型依然能做到全球第三、開源第一。
開發者 Beau Johnson 把自己部署的 OpenClaw 背后的模型從 Claude Opus 4.6 切換到 GLM-5.1,體驗上沒有任何差別,但成本從 1000 美元暴砍至 30 美元左右,降低了 97%。GLM-5.1 的輸入成本是 Claude Opus 的 1/5,輸出成本是 1/8。簡單來說:接近 Opus 的能力,20% 的價格。

當然 GLM-5.1 也不是沒有提升的空間,部分開發者反饋,GLM-5.1 的推理速度只有 44.3 tokens/ 秒,在同類產品沒太大優勢。復雜任務甚至要一小時起步,哪怕 Pro 套餐額度是 Claude 的 15 倍,也可能不太夠用。
這些問題都是真實存在的。GLM-5.1 不是完美的,但這不妨礙它成為一個里程碑。
GLM-5.1 的意義,不在于它比 Opus 4.6 強多少,而在于它證明了,在算力被卡脖子的情況下,國產模型依然能做到開源第一。而且它是開源的,任何人都可以用,任何人都可以改。
你睡覺的 8 小時,現在可以是 AI 上班的 8 小時了。而且這個 AI ,是開源的,是國產的,是任何人都可以用的。
附體驗方式
1. 官方 API 接入
- BigModel 開放平臺:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
- Z.ai:https://docs.z.ai/guides/llm/glm-5.1
2. 產品體驗
- GLM-5.1 即將登陸 Z.ai:https://chat.z.ai
3. 開源鏈接
- GitHub:https://github.com/zai-org/GLM-5
- Hugging Face:https://huggingface.co/zai-org/GLM-5.1
- ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1