文 | 強(qiáng)調(diào) Next
這是過去一年里 Meta 最需要一個好消息的時刻。Llama4 的基準(zhǔn)造假丑聞讓開發(fā)者社區(qū)徹底寒了心,旗艦項(xiàng)目 Behemoth 遲遲沒有下文,與此同時 OpenAI、Anthropic 和 Google 的軍備競賽越打越猛。
扎克伯格今天把 Muse Spark 推到了臺前。
這是 Meta 超級智能實(shí)驗(yàn)室(MSL)交出的第一份答卷,也是汪韜(Alexandr Wang)加入 Meta 九個月后,第一次向外界證明這筆 143 億美元的賭注沒有白下。發(fā)布當(dāng)日,Meta 股價盤中最高漲超 10%,收漲約 9%,市場給出了它想看到的那個答案。
一、九個月,從廢墟里蓋起來
要理解 Muse Spark,先得理解它是怎么來的。
去年夏天,Llama4 的基準(zhǔn)測試被抓了現(xiàn)行:Meta 承認(rèn)拿了針對特定任務(wù)微調(diào)的專用版本去刷分,普通用戶能用到的那個,跟公布的數(shù)據(jù)壓根對不上。這件事對 Meta AI 的品牌傷害不小,但更深的問題在于,就算沒有造假,Llama4 也沒能在前沿模型序列里站穩(wěn)腳跟。
扎克伯格再次推倒重來。
他找來了時年 29 歲的 Scale AI 聯(lián)合創(chuàng)始人汪韜,花 143 億美元買下 Scale AI 49% 的非投票股權(quán),把汪韜塞進(jìn) Meta 首席 AI 官的位置,同時成立 Meta 超級智能實(shí)驗(yàn)室,從 OpenAI、Anthropic、Google 高薪挖人,據(jù)報(bào)道部分研究員的薪酬包含股權(quán)在內(nèi)達(dá)到數(shù)億美元。
然后是整整九個月的沉默。
汪韜在 X 上寫道:" 九個月前,我們從零開始重建了 AI 技術(shù)棧。新的基礎(chǔ)設(shè)施、新的架構(gòu)、新的數(shù)據(jù)流水線。" 不是在原有基礎(chǔ)上打補(bǔ)丁,是字面意義上的重頭來過。

二、" 思維壓縮 ":效率才是真正的護(hù)城河
Muse Spark 最讓人意外的數(shù)字,不是某個基準(zhǔn)測試的排名,而是計(jì)算效率。
Meta 聲稱,Muse Spark 達(dá)到 Llama4 Maverick 同等性能水平所需的計(jì)算量,減少了十倍以上。背后是一種叫做 " 思維壓縮(Thought Compression)" 的訓(xùn)練技術(shù):在強(qiáng)化學(xué)習(xí)階段,對模型過度思考的行為施加懲罰,迫使它用更少的推理 token 解決同樣的問題,同時不犧牲準(zhǔn)確率。

AI 軍備競賽進(jìn)入 2026 年,算力成本依然是最核心的約束之一。Meta 今年的 AI 基礎(chǔ)設(shè)施支出上限調(diào)至 1350 億美元,比上年幾乎翻倍。但光砸錢不夠,燒得更高效才是差異點(diǎn)。如果十分之一的計(jì)算量能跑出同等智力水平,那意味著同樣的預(yù)算可以跑更多次實(shí)驗(yàn)、迭代更多代模型。
從這個角度看," 思維壓縮 " 不只是一個技術(shù)細(xì)節(jié),它意味著這套新架構(gòu)是可以規(guī)模化的。
三、偏科的 " 視覺天才 "
評估一個新模型,先看它的長板和短板分別在哪里。Muse Spark 的性格相當(dāng)鮮明。
長板:多模態(tài)與健康
第三方機(jī)構(gòu) Artificial Analysis 的獨(dú)立評測,給 Muse Spark 打出了 52 分(滿分參照系中),在 Intelligence Indexv 4.0 排名第四,位列 Gemini3.1 Pro(57)、GPT-5.4(57)和 Claude Opus4.6(53)之后。
但在具體科目上,Muse Spark 的多模態(tài)能力是真實(shí)的強(qiáng)項(xiàng)。視覺理解(MMMU-Pro)排名第二,得 80.5,僅次于 Gemini 3.1 Pro 的 82.4。圖表推理(CharXiv Reasoning)得 86.4,力壓 Gemini 的 80.2 和 GPT-5.4 的 82.8,全場第一。
Health Bench Hard 上,Muse Spark 拿了 42.8,超過 GPT-5.4 的 40.1,把 Gemini 3.1 Pro 的 20.6 甩開一大截。Meta 號稱與超過 1000 名醫(yī)生合作,專門為健康場景定制了訓(xùn)練數(shù)據(jù)。

然后是短板,同樣明顯。
ARCAGI 2(抽象推理):Muse Spark 得 42.5,而 Gemini 3.1 Pro 得 76.5,GPT-5.4 得 76.1。差距將近一倍,這個分布不像是追分的問題,更像是架構(gòu)層面的結(jié)構(gòu)性缺口。
終端編程(Terminal-Bench2.0):Muse Spark 得 59.0,GPT-5.4 是 75.1,Gemini 是 68.5。Meta 自己的技術(shù)博客里也直接承認(rèn)," 長程 agentic 系統(tǒng)和代碼工作流 " 是當(dāng)前的重點(diǎn)投入方向。
三級推理模式
模型提供三種模式:Instant(即時)、Thinking(思考)、Contemplating(沉思)。Contemplating 模式最有意思——它并行啟動多個子智能體,分頭處理任務(wù)再綜合結(jié)論。Meta 宣稱在這個模式下,HLE(人類最后考試)得分達(dá)到 58%,F(xiàn)rontier Science Research 達(dá)到 38%,能跟 Gemini DeepThink 和 GPT Pro 在同一個場上競爭。

四、深水炸彈:這對 DeepSeek 意味著什么?
Muse Spark 走向閉源,不僅是 Meta 的轉(zhuǎn)型,更是全球 AI 生態(tài)的一次大洗牌。首當(dāng)其沖的,就是一直以 " 開源高效率 " 著稱的 DeepSeek。
DeepSeek 此前憑借極致的算力利用率在開源界封神,但 Muse Spark 提出的 " 思維壓縮 " 直接在閉源側(cè)把效率拉到了新高度。如果閉源模型不僅智力更強(qiáng),連推理成本都下探到開源模型的水平,DeepSeek 這種 " 平替 " 的性價比優(yōu)勢將被大幅削弱。
當(dāng)然,Meta 撤出開源,意味著開源界失去了一根定海神針。這給 DeepSeek 留下了巨大的市場空間去接管那些 " 被背叛 " 的開發(fā)者,但同時也讓 DeepSeek 陷入了孤軍奮戰(zhàn)。沒有了 Llama 作為行業(yè)標(biāo)準(zhǔn),DeepSeek 必須獨(dú)自面對閉源巨頭們更厚的技術(shù)壁壘。
不過,汪韜主導(dǎo)的這次重建,在多模態(tài)融合和推理效率上的思路,與 DeepSeek 追求的方向高度重合。這意味著接下來的競賽將不再是 " 開源 vs 閉源 " 的意識形態(tài)之爭,而是純粹的、關(guān)于 " 誰能用更少的卡跑出更強(qiáng)的智力 " 的終極對決。
五、最大的新聞:開源時代結(jié)束了
從 2023 年開始,Llama 系列是硅谷 " 開源 AI" 的精神圖騰。開發(fā)者靠 Llama 做了無數(shù)應(yīng)用,學(xué)術(shù)界用它做研究,初創(chuàng)公司用它起家,甚至競爭對手也拿它作為參照系。Meta 在這件事上賺到的品牌資產(chǎn),是其 AI 業(yè)務(wù)最重要的護(hù)城河之一。
Muse Spark 放棄了這個護(hù)城河。
官方說法很溫和:" 我們希望未來版本能夠開源。" 但沒有時間表,沒有承諾,沒有框架。當(dāng)下這個版本,只能通過 MetaAI 應(yīng)用、meta.ai 網(wǎng)站使用,部分合作伙伴可以申請 API 私測資格。架構(gòu)和權(quán)重不公開。
這是徹底的閉源。
從商業(yè)邏輯上不難理解。Meta 今年 AI 基礎(chǔ)設(shè)施支出上限 1350 億美元,這個數(shù)字需要收入來支撐,單靠開源的生態(tài)聲望顯然不夠用。當(dāng)競爭對手的每一代模型都在拉開能力差距時,把最先進(jìn)的架構(gòu)創(chuàng)新保持私密,是避免自己的研發(fā)成果直接養(yǎng)肥對手的理性選擇。
但從開發(fā)者社區(qū)的視角,這是一次背叛。Llama 之所以有價值,恰恰因?yàn)樗梢员幌螺d、被修改、被本地部署。Muse Spark 做不到這些。開發(fā)者失去的不只是一個可用的模型,而是一整套建立在 Meta 開放性信譽(yù)上的工作流。
汪韜在 X 上說得很直白:" 這是第一步,更大的模型已經(jīng)在開發(fā)中。" 言下之意,Muse Spark 只是 Muse 系列的起點(diǎn),后面的 Muse 才是真正的重頭戲。這個表述在技術(shù)上可能是真的,但對那些已經(jīng)依賴 Llama 生態(tài)的開發(fā)者來說,這個 " 未來的承諾 " 能不能兌現(xiàn)不好說。
六、扎克伯格真正在下的那盤棋
把 Muse Spark 放在產(chǎn)品層面看,它有點(diǎn)像今天的字節(jié)。
個人超級智能,這是扎克伯格在 Facebook 帖子里用的詞。Muse Spark 將直接驅(qū)動 Facebook、Instagram、WhatsApp、Messenger 上的 MetaAI 助手,以及 Ray-BanMetaAI 眼鏡。超過 35 億人的觸點(diǎn),這是 OpenAI 和 Anthropic 沒有的分發(fā)優(yōu)勢。
購物模式最能說明問題。MetaAI 識別用戶在 Instagram 上看到的穿搭或家具,結(jié)合用戶的興趣數(shù)據(jù)和行為信號,直接推薦商品并完成購買。這不只是個好用的功能,這是 Meta 的社交圖譜和用戶數(shù)據(jù),第一次被系統(tǒng)性地接入 AI 推理鏈條。
健康場景的布局同樣值得注意。與 1000 名醫(yī)生合作定制訓(xùn)練數(shù)據(jù),這是 Meta 試圖在醫(yī)療健康信息領(lǐng)域占據(jù)位置的明確信號。這個場景的黏性高、用戶需求真實(shí),但同時也意味著隱私風(fēng)險(xiǎn)極高——用戶需要用 Facebook 或 Instagram 賬號登錄才能使用 Muse Spark,而 Meta 的隱私政策對于如何使用這些健康查詢數(shù)據(jù),措辭相當(dāng)模糊。
從競爭格局來看,Muse Spark 的發(fā)布時機(jī)很有意思。就在前一天,Anthropic 剛剛公布了 Claude Mythos,初始僅向少數(shù)企業(yè)客戶開放,重點(diǎn)指向網(wǎng)絡(luò)安全防御。中國的 Z.AI 本周也在代碼基準(zhǔn) SWE-BenchPro 上刷了新高。前沿 AI 的戰(zhàn)線越來越寬,入局的玩家越來越多。
在這個背景下,Muse Spark 想做的事,是把 Meta 重新釘回頂層牌桌——不一定是最強(qiáng),但得夠格參與對話。
七、Llama4 的幽靈還在
最后還有一個問題,沒有人能假裝忘掉 Llama 4 的基準(zhǔn)造假。
那次事件之后,Meta 對所有自己公布的測試數(shù)據(jù)都欠下了一筆信譽(yù)債。Muse Spark 發(fā)布時附上了大量基準(zhǔn)數(shù)字,Artificial Analysis 也拿到了早期測試資格并獨(dú)立評測。
但這個問題始終存在,你怎么知道這次是真實(shí)的?
Muse Spark 的 Contemplating 模式,是所有用戶都能用到的那個,還是又是一個專為基準(zhǔn)測試微調(diào)的特供版本?
Meta 說 Contemplating 模式會 " 逐步推出 ",這個措辭留了太多解釋空間。
結(jié)語
Muse Spark 是一張入場券,不是終點(diǎn)。
它證明汪韜主導(dǎo)的九個月重建是有產(chǎn)出的,證明 " 思維壓縮 " 這個新技術(shù)能跑出比 Llama4 Maverick 高得多的效率,也證明 Meta 在多模態(tài)和健康領(lǐng)域找到了真實(shí)的差異化空間。
但它同時也是一個信號:Meta 放棄了它在 AI 領(lǐng)域最獨(dú)特的定位。Llama 時代,Meta 是那個把尖端模型免費(fèi)開放給所有人的硅谷巨頭,這件事讓它在開發(fā)者心中的地位跟 OpenAI 和 Anthropic 完全不同。現(xiàn)在這個定位沒了。
接下來 Muse 系列會涌出更強(qiáng)大的模型。更大的基建,更多的工程師,更高的算力密度。扎克伯格說得很清楚,這場賭局還在中場。
但有一件事已經(jīng)確定:開源的 Meta,結(jié)束了。