午夜伦伦_国产成人精品在线播放_人民的名义第二部_91大奶子_男人天堂tv_92午夜视频

關于ZAKER 合作
虎嗅APP 10小時前

Meta 憋了 9 個月的大招揭曉了

出品|虎嗅科技組

作者|趙致格

編輯|苗正卿

頭圖|視覺中國

在大模型賽道沉寂已久的 Meta 終于冒頭了。

4 月 9 日,Meta 旗下的超級智能實驗室(Meta Superintelligence Labs, MSL)突然官宣了首款自研大模型 Muse Spark。目前,這款模型已在 meta.ai 網站和 Meta AI App 上線,API 預覽版向部分用戶開放。受到這一好消息的提振,Meta 股價當日一度大漲近 9%,創下自今年 1 月以來最大單日漲幅。截至收盤,Meta 股價收漲 6.5%。

Meta 在博客文章中表示:" 過去九個月,MSL 從零重建了我們的 AI 技術體系,開發速度超越以往任何周期。這款初始模型設計小巧、運行高效,卻足以推演科學、數學與健康領域的復雜問題。它是強大的基礎,下一代模型已在研發中。"

一年之前,Meta 的開源大模型 Llama4 一經發布就迅速陷入造假爭議。網友實測后發現 Llama4 的性能遠不如官方給出的數據。在幾個月后離職的 Meta 前首席科學家楊立昆(LeCun)也對媒體曝光了內幕,稱 Llama4 團隊在不同測試中換上了不同版本的模型來湊數。

而被騙的扎克伯格則開始了對 AI 團隊的大破大立,一邊對原團隊大幅度裁員,一邊為新成立的超級智能實驗室啟動科技史上堪稱最激進的人才招募計劃,不惜一切代價挖掘行業領袖,收購技術精英團隊。

其中最引人矚目的一筆支出無疑是 Meta 斥資 143 億美元收購數據標注公司 Scale AI 近 49% 股權,并任命其聯合創始人汪滔(Alexandr Wang)為首席人工智能官,負責領導 MSL 的工作。

Meta 在同時期延攬的技術精英還包括前蘋果基礎模型團隊(AFM)負責人龐若明,來自 OpenAI 的大型語言模型專家 Trapit Bansal、強化學習權威 Shuchao Bi,從事多模態 AI 研發的 Allan Jabri 和 Lu Liu;來自 DeepMind 的機器學習先驅 Jack Rae 和圖像生成頂尖專家 Huiwen Chang;還有 Claude 核心開發者 Anton Bakhtin 和推理系統專家 Joel Pobar 等等。

Meta 顯然是不差人也不差錢,但在此前的 9 個月里,Meta 自研大模型的進度一直在云里霧里。只有在 Meta 財報會議和扎克伯格的部分采訪中,人們才知道了這個代號牛油果的新模型的少量消息。今年 3 月,一度有傳言稱汪滔因為大模型進度遲緩而離職,但 Meta 很快進行了辟謠。

一邊是其他科技大廠以穩健的姿態高頻進行著大模型的版本更新,一邊是 MSL 團隊在長達 9 個月的時間里閉門煉丹,汪滔和他的團隊顯然承擔了不小的壓力。

隨著 Muse Spark 的空降發布,汪滔看上去心情無比釋放,先是在 X 上連發 8 條消息介紹 Muse Spark,并將其在 BenchMark 上的各項分數置頂,隨后又轉發了 50 多條消息,其中有團隊成員的感言,有科技媒體的報道,也有不少普通網友的夸贊。

如果要總結這個讓 Meta 基本滿意的新模型水平,可以說它終于擺脫了 Llama4" 遙遙落后 " 的局面,綜合表現擠進了全球大模型的第一梯隊。

第三方評測機構 Artificial Analysis 給 Muse Spark 綜合智能指數的打分是 52 分,低于 57 分的 Gemini3.1、57 分的 GPT5.4 和 53 分的 Claude Opus4.6,排名全球第四。而此前 Llama4 的評分僅為 18 分。

如果分開看 Muse Spark 在不同領域的評分,可以看出 Muse Spark 在考驗高難度專業知識的 Humanity ’ s Last Exam with tools(HLE,人類最后的考試)中分數僅為 50.4,在五個主流前沿大模型中排名最末。

Muse Spark 在考察 AI 的純視覺抽象推理的 ARC AGI 2 中同樣表現較差,分數為 42.5,而在這一測試中表現最好的 Gemini3.1Pro 的分數為 76.5,兩者差距明顯。

Muse Spark 另一個相對而言的短板是編程能力,這一點 Meta 也在博客中承認,稱 Muse Spark 在長時序 agentic 系統和編程工作流方面仍有差距 "。在 LiveCodeBench Pro 中,Muse Spark 80 分的成績遠低于 GPT-6.4 的 87.5;在接近實戰的 Terminal-Bench 2.0(終端編程)中,Muse Spark 的 59 分低于 GPT5.4 的 75.1。

Muse Spark 也有一些優勢明顯的領域。在在 HealthBench Hard(開放式健康問答)的測試中,Muse Spark 得分 42.8,大幅領先于 GPT-5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。Meta 在博文中也特意提到了其新模型在醫療領域具有較強應用潛力。Meta 稱自己與超過 1000 名醫生合作,對模型進行訓練以生成有關營養和運動等主題的更詳細回答。可以說,健康是 Meta AI 團隊當下押注的方向。

在 CharXiv Reasoning(圖表科學推理)測試中,Muse Spark 以 86.4 分同樣領先其他 4 位競爭對手,這顯示其強大的多模態信息提取與邏輯推理能力,尤其擅長處理科學論文圖表等復雜信息。

除了不錯的綜合表現,人們關注另一個點是,曾經把 Llama 系列向開發者全面開放的 Meta 此次選擇了閉源。很多人評論稱 Meta 已經背離了其 " 開放科學 " 的初衷。

汪滔在 X 上對此進行了回應,稱 " 九個月前我們從零開始重寫了 AI 技術棧,全新基礎設施、全新架構、全新數據 pipeline ……這只是第一步,更大模型已在研發中,未來版本計劃開源。"

我們不知道汪滔承諾的 " 未來會開源 " 是否能兌現。但前期為大模型研發投入巨資的 Meta 顯然已經在探索 AI 模型的營利方式了。

目前,僅未具名的 " 特定合作伙伴 " 可使用 Muse Spark 的 " 私有 API 預覽版 ",但 Meta 計劃未來向更廣泛用戶提供付費 API 訪問。此外,Meta 稱該模型是 " 為全產品生態量身打造 ",未來幾周將接入 Meta 旗下的 Facebook、Instagram、WhatsApp 以及智能硬件。

此外,Meta 還宣布將會推出 Muse Spark 的購物模式,大模型可以根據用戶在 Instagram、Facebook 上關注的內容和品牌偏好做個性化的購物推薦。

或許 Meta 當下的核心思路是,相較于開源賺的聲譽,用大模型盈利以及用大模型更好地服務自己的 30 億用戶更重要。9 個月前,Meta 在 MSL 實驗室成立時還在聊 AGI 的理想,現在的 Meta 更關心如何讓大模型滲透進社交、購物、醫療、硬件等真實場景。

相關標簽
虎嗅APP

虎嗅APP

有視角的商業資訊與交流平臺

訂閱

覺得文章不錯,微信掃描分享好友

掃碼分享

企業資訊

查看更多內容
主站蜘蛛池模板: 久久精品国产精品亚洲精品色 | 男人天堂2021| 污视频网站免费看 | 在线日本中文字幕 | 丁香久久综合 | 日本少妇做爰全过程毛片 | 亚洲伦乱 | 婷婷天堂网 | 黄色a级片视频 | 国产黄色在线观看 | 日韩av午夜 | 天天操网 | 日本一二三区在线视频 | 久久久精品影视 | 国产高清亚洲 | 蜜臀久久久久 | 一区二区在线免费 | 五月天亚洲色图 | 日韩视频精品在线 | 337人体粉嫩噜噜噜 黄色大片免费网站 | 成人免费观看视频 | 国产高清成人 | 亚洲第一自拍 | 午夜精品网站 | 日韩在线视频网站 | 青青草毛片| 成人亚洲在线 | 国产精品福利在线 | 中文字幕免费视频观看 | 啪啪毛片| 亚欧洲精品视频 | 色午夜视频 | 法国极品成人h版 | 国产白浆视频 | 麻豆久久久久 | 欧美日韩欧美 | 一区二区三区有限公司 | 亚洲专区第一页 | 天天综合天天干 | 日本亚洲国产 | 大色网小色网 |