午夜伦伦_国产成人精品在线播放_人民的名义第二部_91大奶子_男人天堂tv_92午夜视频

愛范兒昨天

Claude Opus 4.6 一天之內被超越兩次，這次來自國產模型

前兩天 APPSO 提到，大模型即將迎來史上最殘酷的一個月，這就來了。

而 Claude Opus 4.6 「不幸」成為背景板，一天之內被超越兩次。

早上 Anthropic 發布了 Claude Mythos Preview，在 SWE-bench Pro 上拿下 77.8%，把 Opus 4.6 的 57.3% 甩在身后。這個分數意味著它能在真實 GitHub 倉庫里定位并修復高難度工程 Bug，已經超過了絕大多數人類程序員。

可 Mythos Preview 暫時不對普通用戶開放，與此同時，另外一個超 Opus 4.6 的模型出現了——智譜開源了 GLM-5.1。

GLM-5.1 SWE-bench Pro 得分 58.4%，超過 Opus 4.6 的 57.3%，也超過 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也發推祝賀：「SWE-Bench Pro 上表現最好的模型現在在 HuggingFace 上開源了！歡迎 GLM 5.1！」

全球第三，開源第一。雖然沒等來 DeepSeek V4，但開源新一哥還是來了，依然是咱們國產大模型。

說實話，我第一反應是又來了，大模型的「榜單狂歡」，每次發布會都是「史詩級進步」，各家模型在榜單上各領風數小時，這次的劇本有什么不同呢。

APPSO 看完 GLM-5.1 的技術細節和體驗后，帶你看看這個模型是什么水平

從 20 步到 1700 步，持續工作 8 小時

GLM-5.1 最讓人沒想到的，不是跑分，是它能工作多久。

智譜有個一個案例讓我印象比較深。8 小時從零構建 Linux 桌面系統。不是寫幾個 demo 文件那種「構建」，是真的從零開始，畫架構、寫代碼、跑測試、修 bug，歷時 8 小時整，執行了 1200 多步，最后產出了一套功能完善的 Linux 桌面系統。

包括完整的桌面、窗口管理器、狀態欄、應用程序、VPN 管理器、中文字體支持、游戲庫，4.8MB 的配套文件。這相當于一個 4 人團隊一周的工作量。

全程沒有人參與測試、審查代碼。GLM-5.1 甚至給自己的代碼寫了回歸測試，而且跑過了。

知乎程序員博主 Toyama nao 做了個更狠的測試。他給 GLM-5.1 扔了三個工程項目：用 Swift 寫 macOS 的 OpenGL 渲染器、用 Flutter 開發全功能聊天軟件同時用 Golang 開發服務端、自選技術棧開發純網頁端視頻剪輯應用。每個項目跑 10-12 輪提示詞，每輪 1500-2000 字。

結果 GLM-5.1 成為第一個通過他全部測試工程的國產模型，也是第一個正式超越 Sonnet 4.5 Thinking 的國產模型。

他的評價是：「GLM-5.1 大幅擴展了編程的適應范圍，不再是前端 only 戰神，也不只是 oneshot 樣子貨，是可以在復雜工況下充當編程主力。」但他也指出了問題：「超長上下文時容易幻覺爆炸，如果遇到 2 輪改不好一個問題，不要抱有僥幸，直接重開。」

去年年底，AI 智能體大約只能完成 20 個步驟。GLM-5.1 現在可以完成 1700 個步驟。這是模型能不能真正「獨立工作」的分水嶺。

智譜在技術報告里解釋了關鍵突破點：以前的模型，包括 GLM-5，會在早期快速取得收益后就進入瓶頸期。它們反復嘗試已知的優化手段，但無法在一條路走不通時主動切換策略。

GLM-5.1 的訓練目標就是突破這個瓶頸，讓模型能夠在一個固定策略內進行增量調優，當收益趨于停滯時，主動分析 Benchmark 日志、定位當前瓶頸，然后跳轉到結構性不同的方案。

向量數據庫優化案例就是典型的「階梯型」優化軌跡。GLM-5.1 用了 655 次迭代，把查詢吞吐從 3108 QPS 一路推到 21472 QPS，提升了 6.9 倍。

這個過程中，模型自己完成了從全庫掃描切到 IVF 分桶召回、引入半精度壓縮、加入量化粗排、做兩級路由，再到提前剪枝的整套優化鏈條。每一次跳躍都伴隨著短暫的 Recall 下降，因為模型在探索新方向時會暫時打破約束，隨后再調回來。這個「打破 - 修復」的循環本身就是有效優化的標志。

在 KernelBench Level 3 優化基準上，GLM-5.1 對 50 個真實機器學習計算負載進行了超過 24 小時的不間斷迭代，最終取得 3.6 倍的幾何平均加速比，顯著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主編寫定制 Triton Kernel 和 CUDA Kernel，運用 cuBLASLt epilogue 融合并實施 shared memory tiling 與 CUDA Graph 優化，覆蓋了從高層算子融合到微架構級調優的完整技術棧。

還有一個更有意思的測試：Vending Bench 2。這個基準要求模型模擬經營一年的自動售貨機業務，需要長期規劃和資源管理。GLM-5.1 最終賬戶余額達到 $4,432，在開源模型中排名第一，接近 Claude Opus 4.5 的水平。

744B 參數，零英偉達芯片，成本降低 97%

GLM-5.1 的技術規格值得細看：744B 參數的混合專家模型（MoE），每個 token 激活 40B 參數，28.5T tokens 訓練數據，集成了 DeepSeek Sparse Attention（DSA）來降低部署成本同時保持長上下文能力。200K 上下文窗口，最大輸出 131,072 tokens。

更關鍵的是，整個模型全部使用華為昇騰 910B 芯片訓練，沒有英偉達 GPU 參與。在算力被卡脖子的情況下，國產模型依然能做到全球第三、開源第一。

開發者 Beau Johnson 把自己部署的 OpenClaw 背后的模型從 Claude Opus 4.6 切換到 GLM-5.1，體驗上沒有任何差別，但成本從 1000 美元暴砍至 30 美元左右，降低了 97%。GLM-5.1 的輸入成本是 Claude Opus 的 1/5，輸出成本是 1/8。簡單來說：接近 Opus 的能力，20% 的價格。

而且 GLM-5.1 是開源的。MIT License，最寬松的開源許可證之一。你可以拿去改，拿去商用，拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架，可以直接在本地部署。

當然 GLM-5.1 也不是沒有提升的空間，部分開發者反饋，GLM-5.1 的推理速度只有 44.3 tokens/ 秒，在同類產品沒太大優勢。復雜任務甚至要一小時起步，哪怕 Pro 套餐額度是 Claude 的 15 倍，也可能不太夠用。

這些問題都是真實存在的。GLM-5.1 不是完美的，但這不妨礙它成為一個里程碑。

GLM-5.1 的意義，不在于它比 Opus 4.6 強多少，而在于它證明了，在算力被卡脖子的情況下，國產模型依然能做到開源第一。而且它是開源的，任何人都可以用，任何人都可以改。

你睡覺的 8 小時，現在可以是 AI 上班的 8 小時了。而且這個 AI ，是開源的，是國產的，是任何人都可以用的。

附體驗方式

1. 官方 API 接入

- BigModel 開放平臺：https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1

- Z.ai：https://docs.z.ai/guides/llm/glm-5.1

2. 產品體驗

- GLM-5.1 即將登陸 Z.ai：https://chat.z.ai

3. 開源鏈接

- GitHub：https://github.com/zai-org/GLM-5

- Hugging Face：https://huggingface.co/zai-org/GLM-5.1

- ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.1

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關標簽

英偉達 linux

午夜伦伦_国产成人精品在线播放_人民的名义第二部_91大奶子_男人天堂tv_92午夜视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務

AI智能客服

我的訂閱

Claude Opus 4.6 一天之內被超越兩次，這次來自國產模型

宙世代

一起剪

相關閱讀

夫妻AI寫公眾號年賺200萬 博主高調宣傳 微信明確表態

余承東佩戴華為AI眼鏡新品曝光 支持第一視角拍攝及AI助理

雷軍把情緒價值拉滿！車主炫耀小米汽車能發微博了：滿滿的炫耀感

華為Pura 90系列外觀曝光：后置三攝+漸變背板+直屏

Pura 90/X2來了！華為Pura系列及全場景新品發布會官宣：4月20日見

OpenAI女神官宣離職了！曾被譽為GPT-4o之母

華為“智能綠水鬼”！華為WATCH Ultimate 2非凡探索曠野綠開售：7999元

大疆Pocket 4曝4月16日發布：8K視頻+1英寸大底 3499起

小米食堂發布“小米”冰激凌：標準、Pro、Max版都有 5.99元起

Meta新模型Muse Spark上線 能力仍落后于第一梯隊

三瑞智能今日上市，全球民用無人機電動動力系統市占率位居全球第二

全民養蝦時代到來：聯想天禧AI大版本更新內容首次流出！還有神秘新硬件曝光

AI“缺電”：全球電力超級周期來了？

周意保：OPPO Find X9s Pro影像全面升級 屏幕看齊Ultra

最新評論

愛范兒

熱門推薦

熱門訂閱 換一批

中保新知

局市

挖貝網

銀莕財經

GMIF創新觀察

醫線Insight

夫妻AI寫公眾號年賺200萬博主高調宣傳微信明確表態

余承東佩戴華為AI眼鏡新品曝光支持第一視角拍攝及AI助理

Meta新模型Muse Spark上線能力仍落后于第一梯隊

周意保：OPPO Find X9s Pro影像全面升級屏幕看齊Ultra

熱門訂閱換一批