天天做夜夜爱爱爱,毛片视频网站,97欧美精品系列一区二区

再見了，所有的羊駝。

亞歷山大王帶隊 9 個月從零重構 Meta 所有 AI 技術棧，在不斷的質疑中交出超級智能實驗室第一個模型：

主打原生多模態的Muse Spark。

模型發布后，Meta 股價火速拉升約 7%，中間一度漲超近 10%，當日整體上漲 6% 左右。

市場的反應可謂相當熱烈。

隨手一扒你就會發現，這款模型背后藏著不少我們熟悉的高手：思維鏈作者 Jason Wei、o1 核心貢獻者 Hyung Won Chung、被小扎天價挖來的余家輝、擴散模型核心人物宋飏……

嗯？當這群人湊在一起，很明顯你就會找到一個關鍵詞：推理。

沒錯，據 Jason Wei 爆料，9 個月前他們坐在一起討論時，首先寫下的就是一款用于推理的 llama 模型腳本，而現在，完全體終于誕生。

而頂尖高手 + 耗時 9 個月打磨，Muse Spark 也總算讓 Meta 在第三方測評中趕上第一梯隊，一雪 llama 4 帶來的前恥。

而且很有意思的一點是，Meta 這次一反常態，沒有反復強調自己拿了多少 SOTA，而是稍顯克制地表示：

Muse Spark 在多模態感知、推理、健康和自主任務方面表現不錯，但在編程和長時間自主運行方面仍與對家的頂尖模型存在差距。

咳咳，看來之前 llama 4 確實給 Meta 留下了心理陰影（doge）。

另外，Muse Spark 的出生也終于讓長期以來有關 "Meta 開閉源 " 的討論蓋棺定論：

這次是真閉源了。

目前這款模型已上線 Meta 網站和 APP，API 僅向部分合作伙伴開放。

（不過亞歷山大王還是留了個口子，表示 " 計劃未來開源后續版本 "）

"Meta 回來了 "

老規矩，先看一波測評成績。

作為 Meta 迄今最強大的模型，Muse Spark 這次主要在三個方面表現突出：

一是多模態理解能力。

不管是看論文圖表還是屏幕，各項得分要么第一、要么和 Gemini 3.1 Pro、GPT 5.4 等不相上下。

從網友們的測試來看，它好像尤為擅長圖片轉代碼。

當然文本能力也不差（doge），在網友的激情測試中，它就火速通過了新版弱智吧風格的洗車測試。

100 米外有個洗車店，我該開車去還是走路去。

Muse Spark：洗車當然要把車開過去，但沒必要搞得跟上下班通勤似的。

（當然也不排除是數據污染的問題，畢竟問題出來也挺久了…）

再一個就是工具調用能力，測評情況也和多模態理解能力類似。

以及這次 Muse Spark 著重強調的醫學能力。

由于和 1000+ 醫生展開了合作，它不僅在開放式健康問答 HealthBench Hard 上拿到 42.8 的最高分，而且在多模態醫學問答 MedXpertQA MM 中位居前列。

不過短板我們開頭也說了，Muse Spark 仍在編程和 Agent 類任務上與其他頂尖選手存在差距。

可能也是為了盡量彌補這一點，他們這次還專門推出了Contemplating 沉思模式。

主要是讓多個 Agent 同時思考同一個問題，然后匯總結果找出最好的。

在這套打法下，Muse Spark 就能和 Gemini Deep Think、 GPT Pro 這類極限推理模式展開正面 PK 了。

比如在 " 人類最后的考試 " 中，Muse Spark 明顯壓過一頭（不過在物理奧賽理論題中還是略遜一籌）。

（目前沉思模式正在 Meta 網站灰度測試）

另外值得一提的是，Meta 這次無預告直接上線了 " 購物模式 "。

亞歷山大王表示，模型會結合用戶在 ins、Facebook、Threads 上關注的創作者和品牌偏好，做個性化的購物推薦。

好好好，這次也不給你討論的機會了，之前 OpenAI 可沒少因為廣告挨罵。

目前，隨著 Muse Spark 測評一同出爐的，還有第三方機構的測評。

他們拿到 Muse Spark 的早期訪問權測了一波，然后給出了一個結論：Meta 回來了！

在關鍵指標人工智能分析指數上，其得分僅次于 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6。

這也和 Muse Spark 自己給出的測評成績差不多。

對外界而言，初步來看，Muse Spark 確實把 Meta 重新帶回了人工智能第一梯隊。

背后訓練細節

至于 Muse Spark 是如何做到這一點的，Meta 也公布了背后的訓練細節。

核心其實就是亞歷山大王提到的：9 個月重構一切。

新的基礎設施、新的架構、新的數據管道。

具體可以看網友給大家劃的重點：

在預訓練階段，能夠以比 Llama 4 少 10 倍以上的計算量達到相同的性能水平。

強化學習訓練展現出平滑且可預測的改進，具有良好的泛化能力和可擴展性。

Test-time 階段，在加入長度懲罰機制后，" 思維壓縮 " 開始生效，模型學會了用更少的 token 解決問題。

Meta 在博客中介紹，過去 9 個月，他們對 Muse Spark 的預訓練技術棧進行了全面升級。

所有改進的目標，都是為了讓每一分算力都能產生更大的價值。

為了驗證效果，他們做了一個對比實驗：先用一系列小模型擬合出一條 " 算力 - 能力 " 的 Scaling 曲線，然后計算要達到某個性能水平具體需要多少算力。

結果發現，相比 Llama 4，Muse Spark 達到同樣水平所需要的計算量低了一個數量級以上（10.3 倍）。

預訓練完成后，他們進一步用強化學習來提升模型能力。

雖然大規模 RL 訓練通常很不穩定，但他們聲稱自己的新架構做到了 " 穩中有進 "。

如下圖所示，隨著 RL 訓練步數增加，模型在訓練數據上的成功率（無論是單次嘗試還是 16 次中至少成功一次）呈現對數線性增長。

這說明，RL 在提升可靠性的同時，沒有破壞推理的多樣性。

而且在模型從未見過的任務上，準確率同樣在穩步提升——這說明 RL 帶來的能力提升是可預測、可泛化的，不是死記硬背。

以及為了讓模型在回答復雜問題之前先 " 想一想 "，團隊仍用強化學習訓練它具備這種 " 測試時推理 " 能力。

不過需要注意，實踐證明 Test-time 階段的推理尤為耗費 token，所以如何精打細算也是這一階段的重點。

對此，他們用了兩個關鍵手段來平衡效果與效率：

一是思考時間懲罰。鼓勵模型用更短的推理路徑得出正確答案，倒逼它學會 " 思維壓縮 "。

二是多智能體協作。讓多個模型或模塊協同工作，在保證響應速度不降的前提下提升整體表現。

然后在 AIME 這類高難度評測集上，他們觀察到了一個有趣的" 三階段變化 "：

模型一開始會不自覺延長思考，希望通過拉長推理過程來提高正確率。

但這會馬上觸發 " 思考時間懲罰 "，于是模型被迫精簡推理，學會用更少的 token 解決問題。

而在精簡之后，模型還表現出了擴展性能——在高效的基礎上繼續優化解法，最終實現用更少的資源獲得更強的性能表現。

也不乏翻車的

不過前面也說了，Muse Spark 雖然將 Meta 帶回了第一梯隊，但在編程、Agent 類任務上仍有不足。

這不，模型剛發布，翻車集錦也來了……

有人想用它生成網站，結果 3 個請求一個都沒實現，而且連最基本的前端都無。

不過后來貼主發現可能是偶然錯誤，模型正常情況下做出來的前端是這樣的。

一個簡單的編程任務，Muse Spark 雖生成了一大堆東西，但根本跑不通。

在一個 Python 文件里實現自動微分（autograd）和神經網絡。

網友甚至調侃，模型根本沒在學，訓練了 1800 個 epoch，損失函數卻一直卡在同一個值上沒動過。

白白浪費算力了……

（正常情況下，隨著訓練進行損失應該逐步下降，表明模型在 " 學習 "）

所以問題來了，有試過的朋友覺得亞歷山大王的首個模型如何？

https://ai.meta.com/blog/introducing-muse-spark-msl/

參考鏈接：

[ 1 ] https://x.com/_jasonwei/status/2041930482179567966?s=20

[ 2 ] https://x.com/jhyuxm/status/2041913529033486468?s=20

[ 3 ] https://x.com/DrYangSong/status/2041911869934596214?s=20

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

誰會代表 2026 年的 AI？

龍蝦爆火，帶動一波 Agent 與衍生產品浪潮。

但真正值得長期關注的 AI 公司和產品，或許不止于此。

如果你正在做，或見證著這些變化，歡迎申報。

讓更多人看見你。 https://wj.qq.com/s2/25829730/09xz/

一鍵關注點亮星標

科技前沿進展每日見

午夜伦伦_国产成人精品在线播放_人民的名义第二部_91大奶子_男人天堂tv_92午夜视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務

AI智能客服

我的訂閱

Meta 億元天團首個大模型交卷！余家輝宋飏 Jason Wei 耗時九個月，一雪 Llama 前恥

宙世代

一起剪

相關閱讀

英偉達收購告吹后，Nebius正洽談收購以色列人工智能初創公司AI21

GPT-6要來了，但AI行業早不跟 OpenAI玩了

AI盡頭是電力！中國Token為什么量大又便宜：1年發電量2倍于美國、5倍于印度

大疆創始人汪滔談影石劉靖康：年輕有活力 直言讓他想起紅孩兒

GeekBench 6.7可檢測Intel IBOT加速技術：無情標注無效

iPhone Air等換機必備！中國聯通推出eSIM手機綁定號碼數量查詢功能

中國第一家！榮耀和張雪機車達成戰略合作 網友：用2000塊碎屏手機的張雪 不愁在手機上花錢了

美國阿耳忒彌斯二號載人繞月飛行任務視頻綠幕穿幫 被指棚內擺拍：答案來了

宇樹科技和阿里將有出海戰略級合作：宇樹機器人上手阿里電腦打字 或將落地速賣通

DeepSeek上線專家模式；華為AI眼鏡即將到來

iPhone 18 Pro簡化相機鍵功能：被吐槽華而不實 蘋果近年來最具爭議的設計

AI改變世界的一萬種方式？這場大會破解了我的AI焦慮

淘天一年賣了上千億，年輕人為什么要靠玩具潮玩 “續命”？

「敢不敢」勝過「能不能」，萬字解析可靈 AI 的「非典型」突圍路

蘋果要花3年重新定義iPhone！探索無開孔終極形態

最新評論

量子位

熱門推薦

企業資訊

熱門訂閱 換一批

局市

銀莕財經

GMIF創新觀察

醫線Insight

挖貝網

中保新知

大疆創始人汪滔談影石劉靖康：年輕有活力直言讓他想起紅孩兒

中國第一家！榮耀和張雪機車達成戰略合作網友：用2000塊碎屏手機的張雪不愁在手機上花錢了

美國阿耳忒彌斯二號載人繞月飛行任務視頻綠幕穿幫被指棚內擺拍：答案來了

宇樹科技和阿里將有出海戰略級合作：宇樹機器人上手阿里電腦打字或將落地速賣通

iPhone 18 Pro簡化相機鍵功能：被吐槽華而不實蘋果近年來最具爭議的設計

熱門訂閱換一批