Generalist AI 的 GEN-1 熱度,仍在發(fā)酵。
自節(jié)前那場引爆全網(wǎng)的 Demo 之后,昨日,創(chuàng)始人 Pete Florence 與團隊,正式釋出了 GEN-1 的技術(shù)博客。
與其說這是一篇技術(shù)分享,不如說這是一篇「教同行做事」的檄文。
一點甲不疊,上來就毫不留情地否定了當前炙手可熱的世界模型與 VLA 之爭。
直言所有關(guān)于技術(shù)路線的爭論都是浪費時間。

但問題是,你的目標是什么?
在他們看來,具身智能的關(guān)注點,應(yīng)該回歸到「目標」本身。
這正是 Generalist 選擇「離經(jīng)叛道」的根本原因。
完全不依賴任何已有路線。不走微調(diào) VLM 加動作頭的捷徑,也不宣稱自己是世界模型。
直接基于真機數(shù)據(jù)從零開訓(xùn)。
GEN-1 大約 99% 的參數(shù),都是從零開始訓(xùn)練的。
Generalist 強調(diào),這才是促成 GEN-1 實現(xiàn)飛躍的核心機密,也是他們真正想與行業(yè)分享的洞見。
這是他們從第一性原理出發(fā),得出的最終答案:
想要實現(xiàn)物理 AGI,最好的方式,或許就是「從零訓(xùn)練」這條看似不好走的路。
如果用原力靈機的話說,這叫「具身原生」。

是的,這條路線其實并非 GEN-1 首創(chuàng)。
就在兩個月前,這家來自中國的具身智能新星,就已經(jīng)用同樣的邏輯,舉辦了一場「具身原生」主題的技術(shù)開放日,交出了一份驚艷的答卷。
原力靈機,具身原生大模型 DM0,RoboChallenge 真機評測全球第一。

GEN-1 引爆具身 GPT-3 時刻
GEN-1 的發(fā)布,無疑是 2026 年春節(jié)后,具身智能行業(yè)的第一次「大地震」。
創(chuàng)始人 Pete Florence 將其稱為「GPT-3 時刻」。
在多個任務(wù)中,該模型的成功率超過 99%,完成任務(wù)的速度比此前最先進的模型快了大概 3 倍,甚至涌現(xiàn)出 Failure Recovery(故障恢復(fù))的能力。
用實際 demo 表現(xiàn),驗證了機器人領(lǐng)域的 Scaling Law。

只要數(shù)據(jù)和算力夠,從零訓(xùn),永遠是贏家。

彼時 VLA 風潮席卷全球,拿一個預(yù)訓(xùn)練好的視覺語言模型,接上動作頭微調(diào)一下,是兼顧效率和效果的公認最優(yōu)解。
到了 2026 年初,世界模型又成了新的流量密碼。
Generalist 偏偏不站隊。
他們從來沒把自己的模型叫 VLA,但也不宣揚自己是世界模型。
事實上,他們至今也沒說自己是個什么技術(shù)路線,也不想去刻意貼標簽。
但有一點卻是無比清楚:無論靠什么方式,即便是「離經(jīng)叛道」,他們也要徹底實現(xiàn)物理 AGI。
GEN-1 的博客引用了 John Schulman 的觀點,犀利地劃分了「想法驅(qū)動」與「目標驅(qū)動」兩種研究范式。
前者,是雇傭兵。追漲殺跌,哪個方法火就選哪個,只為眼前的戰(zhàn)功。
后者,是傳教士。選定一個終極目標,然后埋頭苦行,堅定不移地前行,掃清擋在路上的一切障礙。
Generalist 選了后者。
基于這個第一性原理,Generalist 做出了那個看似瘋狂的決定——
不基于任何現(xiàn)有的基礎(chǔ)模型,直接拿原始數(shù)據(jù),冷啟動。
在這方面,Generalist 表現(xiàn)出了近乎偏執(zhí)的「完美主義」。
在他們看來,微調(diào)別人的模型,意味著從第一行代碼開始,天花板就被別人鎖死了。
知識邊界、認知能力、甚至底層的缺陷,都已注定,無法更改。
Generalist 想要賭的,是明天。
而站在未來的時間節(jié)點回望,你會驚覺:
無論是 VLM、VLA,還是世界模型,本質(zhì)上都只是標簽,數(shù)據(jù)匱乏時期的「拐杖」。
關(guān)鍵問題在于,當「身體」恢復(fù)健康、肌肉足夠強壯后,我們還需要拐杖嗎?
供給端的版圖永遠在日新月異。
這正是這場比賽最驚心動魄的地方。
就像 F1 賽車,規(guī)則制定者會刻意限制車胎耐久標準,正是在這些 Trade-off(權(quán)衡)的極限施壓下,才催生出無數(shù)截然不同的奪冠策略。
在 LLM 領(lǐng)域,雖然互聯(lián)網(wǎng)數(shù)據(jù)不再是瓶頸,但算力成為了新的緊箍咒。
這才造就了 OpenAI、Anthropic、DeepMind 各自基于不同哲學(xué)思考,走出了截然不同的進化路線,因為資源只夠他們選一條去 All in。
因此,基于第一性原理做出的長期主義戰(zhàn)略判斷,才會更顯得尤為珍貴。
最難的不是應(yīng)對變化,而是在風云詭譎的環(huán)境中,找到那個屹立不變的錨點。
你不僅要計算當前的限制,更要預(yù)判這些限制將如何不可避免地發(fā)生崩塌。限制變化得越快,這種預(yù)判就越重要。
而在 Generalist 看來,機器人數(shù)據(jù)不夠,僅僅是暫時的限制。
進入 2026 年,事實證明,這項限制條件,確實被改寫了。
Generalist 已經(jīng)積累了超過 50 萬小時的物理交互數(shù)據(jù)。
當原生數(shù)據(jù)足夠豐富時,所有輔助手段終將被掃進歷史的垃圾堆。
在他們看來,只有具身原生,從零開訓(xùn)這個「從無到有」的概念,是為那個即將到來的新世界而生的。
不過,GEN-1 可能并非第一個具身原生模型。
在中國,同樣有家 All in 這個概念的明星具身公司,并且早在今年 2 月份便高調(diào)發(fā)布過。
DM0,首個具身原生模型
一起再來看看原力靈機的這份成績單吧。
DM0,RoboChallenge 真機評測,雙項全球第一。
單任務(wù)成功率:62%
多任務(wù)成功率:37.3%
排在它身后的,是 Pi0.5、Pi0 等一眾明星模型。
而取得這一成績的,僅僅是一個 2.4B 參數(shù)的模型。并且已全面開源。

在大模型的軍備競賽中,這個參數(shù)量幾乎可以被忽略不計。
但結(jié)果卻令人嘩然。
對于這個結(jié)果,原力靈機合伙人周而進在與「智能相對論」的對話中,淡定地表示:
在機器人領(lǐng)域,無腦堆參數(shù)量這件事非常荒誕。
周而進一針見血地指出,參數(shù)并非第一性原理。
事實上,一旦找到了真正「原生」的路線,現(xiàn)有具身數(shù)據(jù)量根本無法支撐起一個大參數(shù)模型。
那么,DM0 所說的「原生」,到底「原生」在哪?
可以分為三個層面——
首先,是數(shù)據(jù)原生,這是拉開差距的關(guān)鍵。
當前行業(yè)的普遍做法是:下載一個預(yù)訓(xùn)練好的 VLM,然后外掛一些機器人操作數(shù)據(jù)進行微調(diào)。
快是快,但問題同樣致命:模型壓根沒見過關(guān)節(jié)電機長什么樣。
它只是看過一些互聯(lián)網(wǎng)數(shù)據(jù),背誦了關(guān)于機械動作的文字描述。僅此而已。
這種「死記硬背」導(dǎo)致了大量無意義的訓(xùn)練,最終帶來參數(shù)膨脹。
這或許是一種參數(shù)層面的「幻覺」。
如果模型只是針對單一機型記憶「拿起瓶子」時,每個關(guān)節(jié)該轉(zhuǎn)多少度,那么一旦換一臺硬件,它將束手無策。
因此,DM0 走了完全不同的路。
它的訓(xùn)練數(shù)據(jù)融合了三類來源 :
多模態(tài)互聯(lián)網(wǎng)數(shù)據(jù):奠定語義理解和常識推理的基座能力。
駕駛數(shù)據(jù):賦予模型對物理世界的時空推理與動態(tài)感知。
具身傳感數(shù)據(jù):涵蓋視覺、觸覺、力覺等多維度信息,讓模型真正「觸摸」到這個世界。
模型的輸入端,不再僅僅是圖像和文字,更包含了機器人實操的具身軌跡數(shù)據(jù)。
兩類數(shù)據(jù)共同優(yōu)化,迫使模型同時學(xué)會「看懂世界」和「動手操作」。

在具體采集策略上,原力靈機的「原生」第一性原理同樣體現(xiàn)得淋漓盡致——
正是因為完全目標導(dǎo)向,所以手段可以相當靈活。
比如對仿真數(shù)據(jù)的態(tài)度。
仿真數(shù)據(jù)量大管飽,但在精細操作場景中價值有限。例如「裝水」任務(wù),液體一晃,整個瓶子的質(zhì)心就在變化,仿真環(huán)境難以準確建模。
因此,原力靈機在室內(nèi)導(dǎo)航、剛性物體抓取等方面利用仿真數(shù)據(jù),但在精細操作層面,則堅決側(cè)重真機。
追求 Scaling,但不迷信數(shù)據(jù)量,而是讓每一份數(shù)據(jù)都發(fā)揮最大價值。
這恰好與 Generalist 在 GEN-1 博客中的判斷形成呼應(yīng):供給端是會變化的,你要為即將到來的世界而構(gòu)建。
其次是訓(xùn)練原生。
DM0 將「理解世界」、「操作世界」、「預(yù)測世界」三種能力統(tǒng)一訓(xùn)練。
它不是先訓(xùn)練一個 VLM,再接一個動作頭(Action Head),而是從第一天起,就讓這三種能力在同一個模型體內(nèi)共同生長、相互塑造。
模型的設(shè)計緊貼真實世界需求,評價標準是真機效果,獎勵函數(shù)來自真實場景的實踐反饋。
第三是架構(gòu)原生。
DM0 采用天然支持多模態(tài)的架構(gòu)設(shè)計,將力覺、觸覺等維度的信息直接融入模型核心,而非外掛式地拼接傳感器模塊。
同時,它具備原生記憶能力,為長序列任務(wù)的執(zhí)行提供堅實支撐。
三個「原生」疊加在一起,指向一個反直覺結(jié)果:模型雖小,卻異常泛化。
對具身智能來說,泛化性是真正的試金石。
原力靈機將其拆解為四個維度:
對象泛化:同樣是抓取,換個形狀、材質(zhì)、大小,照樣能穩(wěn)穩(wěn)拿起。
場景泛化:在 A 車間能干活,搬到 B 車間也絕不掉鏈子。
任務(wù)泛化:不只局限于被教過的幾個動作,更能自主排列組合,將簡單動作串聯(lián)成復(fù)雜的長程任務(wù)。
機型泛化:即便換一臺胳膊更長、關(guān)節(jié)更多的機器人,也能直接驅(qū)動其上手干活。
四個維度,缺一不可。
而 DM0,從第一天就在為這四個維度做準備。
原力靈機沒有像行業(yè)里很多團隊那樣,先針對一種機型訓(xùn)一個專用模型,跑通 demo 再說。
DM0 在預(yù)訓(xùn)練階段就同時混合了操作、導(dǎo)航、全身控制三類任務(wù),覆蓋了 8 種構(gòu)型迥異的機器人硬件。

這相當于對模型說:你不是喜歡死記硬背嗎?
好,我把所有任務(wù)和所有本體混雜在一起扔給你——來,背!
事實證明,這一策略成功鎖死了模型想通過死記硬背走捷徑的念頭。
「混亂」中,原力靈機倒逼模型不再執(zhí)著于電機參數(shù),轉(zhuǎn)而去理解每次操作背后通用的邏輯和物理規(guī)律。
智能,就這樣從原生的物理交互中,自然而然地生長了出來。
2.4B 參數(shù),RoboChallenge 雙項全球榜首。
2026 年,是具身原生元年
GEN-1 的博客里有句話,目標比方法更強大。
過去兩年,行業(yè)最高頻的問題是:機器人什么時候能進廠干活 ?
但或許,比這個問題更值得關(guān)注的是:
機器人什么時候能找到進廠干活的正確方法 ?
Generalist 用 GEN-1 給出了答案。
從零訓(xùn)練原生模型,摒棄一切拐杖的「借力」,可能才是通往終局的唯一路線。
無獨有偶,原力靈機的 DM0,同樣不約而同地在今年踏上了這條少有人走的路。

具身原生元年。
一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見