再見了,所有的羊駝。
亞歷山大王帶隊 9 個月從零重構 Meta 所有 AI 技術棧,在不斷的質疑中交出超級智能實驗室第一個模型:
主打原生多模態的Muse Spark。

市場的反應可謂相當熱烈。
隨手一扒你就會發現,這款模型背后藏著不少我們熟悉的高手:思維鏈作者 Jason Wei、o1 核心貢獻者 Hyung Won Chung、被小扎天價挖來的余家輝、擴散模型核心人物宋飏……
嗯?當這群人湊在一起,很明顯你就會找到一個關鍵詞:推理。
沒錯,據 Jason Wei 爆料,9 個月前他們坐在一起討論時,首先寫下的就是一款用于推理的 llama 模型腳本,而現在,完全體終于誕生。
而頂尖高手 + 耗時 9 個月打磨,Muse Spark 也總算讓 Meta 在第三方測評中趕上第一梯隊,一雪 llama 4 帶來的前恥。

Muse Spark 在多模態感知、推理、健康和自主任務方面表現不錯,但在編程和長時間自主運行方面仍與對家的頂尖模型存在差距。
咳咳,看來之前 llama 4 確實給 Meta 留下了心理陰影(doge)。
另外,Muse Spark 的出生也終于讓長期以來有關 "Meta 開閉源 " 的討論蓋棺定論:
這次是真閉源了。
目前這款模型已上線 Meta 網站和 APP,API 僅向部分合作伙伴開放。
(不過亞歷山大王還是留了個口子,表示 " 計劃未來開源后續版本 ")
"Meta 回來了 "
老規矩,先看一波測評成績。

一是多模態理解能力。
不管是看論文圖表還是屏幕,各項得分要么第一、要么和 Gemini 3.1 Pro、GPT 5.4 等不相上下。
從網友們的測試來看,它好像尤為擅長圖片轉代碼。

100 米外有個洗車店,我該開車去還是走路去。
Muse Spark:洗車當然要把車開過去,但沒必要搞得跟上下班通勤似的。
(當然也不排除是數據污染的問題,畢竟問題出來也挺久了…)

以及這次 Muse Spark 著重強調的醫學能力。
由于和 1000+ 醫生展開了合作,它不僅在開放式健康問答 HealthBench Hard 上拿到 42.8 的最高分,而且在多模態醫學問答 MedXpertQA MM 中位居前列。
不過短板我們開頭也說了,Muse Spark 仍在編程和 Agent 類任務上與其他頂尖選手存在差距。
可能也是為了盡量彌補這一點,他們這次還專門推出了Contemplating 沉思模式。
主要是讓多個 Agent 同時思考同一個問題,然后匯總結果找出最好的。
在這套打法下,Muse Spark 就能和 Gemini Deep Think、 GPT Pro 這類極限推理模式展開正面 PK 了。
比如在 " 人類最后的考試 " 中,Muse Spark 明顯壓過一頭(不過在物理奧賽理論題中還是略遜一籌)。
(目前沉思模式正在 Meta 網站灰度測試)

亞歷山大王表示,模型會結合用戶在 ins、Facebook、Threads 上關注的創作者和品牌偏好,做個性化的購物推薦。
好好好,這次也不給你討論的機會了,之前 OpenAI 可沒少因為廣告挨罵。

他們拿到 Muse Spark 的早期訪問權測了一波,然后給出了一個結論:Meta 回來了!
在關鍵指標人工智能分析指數上,其得分僅次于 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6。

對外界而言,初步來看,Muse Spark 確實把 Meta 重新帶回了人工智能第一梯隊。
背后訓練細節
至于 Muse Spark 是如何做到這一點的,Meta 也公布了背后的訓練細節。
核心其實就是亞歷山大王提到的:9 個月重構一切。
新的基礎設施、新的架構、新的數據管道。

在預訓練階段,能夠以比 Llama 4 少 10 倍以上的計算量達到相同的性能水平。
強化學習訓練展現出平滑且可預測的改進,具有良好的泛化能力和可擴展性。
Test-time 階段,在加入長度懲罰機制后," 思維壓縮 " 開始生效,模型學會了用更少的 token 解決問題。

所有改進的目標,都是為了讓每一分算力都能產生更大的價值。
為了驗證效果,他們做了一個對比實驗:先用一系列小模型擬合出一條 " 算力 - 能力 " 的 Scaling 曲線,然后計算要達到某個性能水平具體需要多少算力。
結果發現,相比 Llama 4,Muse Spark 達到同樣水平所需要的計算量低了一個數量級以上(10.3 倍)。

雖然大規模 RL 訓練通常很不穩定,但他們聲稱自己的新架構做到了 " 穩中有進 "。
如下圖所示,隨著 RL 訓練步數增加,模型在訓練數據上的成功率(無論是單次嘗試還是 16 次中至少成功一次)呈現對數線性增長。
這說明,RL 在提升可靠性的同時,沒有破壞推理的多樣性。
而且在模型從未見過的任務上,準確率同樣在穩步提升——這說明 RL 帶來的能力提升是可預測、可泛化的,不是死記硬背。

不過需要注意,實踐證明 Test-time 階段的推理尤為耗費 token,所以如何精打細算也是這一階段的重點。
對此,他們用了兩個關鍵手段來平衡效果與效率:
一是思考時間懲罰。鼓勵模型用更短的推理路徑得出正確答案,倒逼它學會 " 思維壓縮 "。
二是多智能體協作。讓多個模型或模塊協同工作,在保證響應速度不降的前提下提升整體表現。
然后在 AIME 這類高難度評測集上,他們觀察到了一個有趣的" 三階段變化 ":
模型一開始會不自覺延長思考,希望通過拉長推理過程來提高正確率。
但這會馬上觸發 " 思考時間懲罰 ",于是模型被迫精簡推理,學會用更少的 token 解決問題。
而在精簡之后,模型還表現出了擴展性能——在高效的基礎上繼續優化解法,最終實現用更少的資源獲得更強的性能表現。

不過前面也說了,Muse Spark 雖然將 Meta 帶回了第一梯隊,但在編程、Agent 類任務上仍有不足。
這不,模型剛發布,翻車集錦也來了……
有人想用它生成網站,結果 3 個請求一個都沒實現,而且連最基本的前端都無。


在一個 Python 文件里實現自動微分(autograd)和神經網絡。
網友甚至調侃,模型根本沒在學,訓練了 1800 個 epoch,損失函數卻一直卡在同一個值上沒動過。
白白浪費算力了……
(正常情況下,隨著訓練進行損失應該逐步下降,表明模型在 " 學習 ")

https://ai.meta.com/blog/introducing-muse-spark-msl/
參考鏈接:
[ 1 ] https://x.com/_jasonwei/status/2041930482179567966?s=20
[ 2 ] https://x.com/jhyuxm/status/2041913529033486468?s=20
[ 3 ] https://x.com/DrYangSong/status/2041911869934596214?s=20
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
誰會代表 2026 年的 AI?
龍蝦爆火,帶動一波 Agent 與衍生產品浪潮。
但真正值得長期關注的 AI 公司和產品,或許不止于此。
如果你正在做,或見證著這些變化,歡迎申報。
讓更多人看見你。 https://wj.qq.com/s2/25829730/09xz/
一鍵關注 點亮星標
科技前沿進展每日見