午夜伦伦_国产成人精品在线播放_人民的名义第二部_91大奶子_男人天堂tv_92午夜视频

關于ZAKER 合作
鈦媒體 3小時前

27 個月,被罵騙子的公司成了印度 deepseek

文 | 硬嘮 intalk

2026 年 3 月 6 日,Sarvam AI 把兩個模型的權重文件上傳到了 Hugging Face。

文件名是 sarvam-30b 和 sarvam-105b。任何人都可以免費下載,免費修改,免費部署。這是開源協議中最寬松的一種—— Apache 2.0,連商業使用都不設障礙。

沒有發布會,沒有倒計時直播。就是兩個文件,掛在網上。

但對于理解這個動作的人來說,這兩個文件意味著一件事:一家印度 AI 公司,從零開始訓練出了一個在全球基準測試上有競爭力的大模型——然后把它送了出去。

這家公司走到這一步,用了兩年半。中間有一個讓全網嘲笑過的失敗,有一筆讓外界議論至今的政府交易,還有一個在公開羞辱發生后寫下的、只有一句話的回應。

故事從 2023 年 12 月開始。

一、頂峰那天

2023 年 12 月 7 日,Sarvam AI 宣布完成融資。

4100 萬美元,種子輪加 A 輪合并計算。領投方是 Lightspeed,Peak XV 和 Khosla Ventures 跟投。按照 TechCrunch 的說法,這是印度 AI 創業公司在這個階段完成的最大單筆融資。

公司成立剛好五個月。員工總數約 18 人。

沒有人知道這家公司之前做過什么——它是從隱身模式直接跳出來宣布融資的。但投資人顯然不需要更多時間判斷。Peak XV 和 Lightspeed 在種子輪時不到一周就拍了板。Khosla Ventures 創始人 Vinod Khosla 在聲明里說:" 我們需要像 Sarvam 這樣的公司,為印度、在印度構建 AI 的深度能力。"

讓他們下這么快決定的,是兩個創始人的簡歷放在一起之后產生的化學反應。

Pratyush Kumar,IIT Bombay 本科,ETH Zurich 博士,之后在 IBM Research 和 Microsoft Research 做研究員,再后來回到 IIT Madras 做教職。他在學術圈發表了 89 篇論文,但更重要的履歷是另一個身份:AI4Bharat 聯合創始人。這是一個專注于印度語言 AI 的開源研究計劃,背后站著印度數字基礎設施的主要締造者 Nandan Nilekani。

Vivek Raghavan,IIT Delhi 本科,卡內基梅隆博士。畢業后在 EDA 行業做了整整二十年,做到 Synopsys 的副總裁級別。然后他做了一個不太符合職業邏輯的選擇:回印度,去 UIDAI ——那個負責 Aadhaar 身份證系統的政府機構——做生物識別基礎設施,一做就是十二年。Aadhaar 今天覆蓋了超過十億印度人,是全球最大規模的數字身份系統之一。Raghavan 是這套系統底層技術的參與建設者。

兩個人在 AI4Bharat 相遇,2023 年 8 月一起創辦了 Sarvam。

他們看到的機會,和 ChatGPT 在 2022 年 11 月出現有直接關系。不是因為要復制 ChatGPT,而是因為 ChatGPT 的出現讓一件事變得顯而易見:語言模型正在成為新的基礎設施,而這套基礎設施如果只懂英語,對一個有二十二種官方語言、大多數人口不以英語為母語的國家來說,意味著一種結構性的排斥。Raghavan 在融資公告里說了一句話:" 我親眼見證過在基礎層創新、并在人口規模上部署的巨大價值。" 他指的不是抽象的愿景,而是 Aadhaar。

這就是 VC 在不到一周內決定投資的原因:這不是兩個在硅谷學了幾年深度學習就回來創業的人,而是兩個真正在印度數字基礎設施最深處工作過的人,在 AI 范式切換的時間節點上,做了一個在他們背景下極為自然的選擇。

融資公告發出之后,Sarvam 承諾的事情很簡單:造一個印度自己的 AI。

但 " 印度自己的 " 這幾個字,比他們預想的要難兌現得多。

二、第一個滑坡

拿到錢之后,Sarvam 的第一步走得相當穩。

2024 年 2 月,微軟 CEO 納德拉訪印主持 AI Tour,宣布將與 Sarvam 合作開發印度語音 AI 工具,并將 Sarvam 的印度語音大模型上線 Azure。2024 年 6 月,世界經濟論壇把 Sarvam 列入 Technology Pioneers 2024 名單——全球 100 家,印度 10 家,Sarvam 在列。2024 年 10 月,公司發布了第一個公開模型 Sarvam-1:20 億參數,支持 10 種印度語言,在部分印度語言任務上的表現超過了規模更大的全球模型。

媒體的描述越來越順滑:印度 AI 的國家隊、主權模型的希望、下一個 DeepSeek。

但有一件事,在這段時間里悄悄積累了壓力。

2025 年 4 月 26 日,印度政府在 67 家申請機構中選中 Sarvam,承接 IndiaAI Mission 的主權大模型項目。這是一筆條件特殊的交易:政府提供算力—— 4096 塊 NVIDIA H100,使用期六個月,托管在 Yotta 數據中心——換取 Sarvam 的股權。算力的總賬單是 2.47 億盧比,政府補貼其中的 9868 萬盧比,剩余部分由 Sarvam 承擔。

合同的核心要求只有一條:模型必須從零訓練,完成后開源。

這是 Sarvam 第一次真正拿到足以訓練主權模型的算力。

按理說,接下來的動作應該是埋頭去做那件一直承諾的事。

但 2025 年 5 月 23 日,Sarvam 發布了 Sarvam-M。

Sarvam-M 是一個 240 億參數的混合模型,支持 10 種印度語言,針對數學和代碼任務做了強化訓練。發布公告里列了一串基準測試數字,措辭是它在 " 多項指標上與全球領先模型相當 "。

問題不在于這些數字是否屬實。問題在于模型的底座:Sarvam-M 建立在法國公司 Mistral 的開源模型 Mistral Small 之上。Sarvam 的工程師在這個基礎上用印度語言數據做了大規模的后訓練。這是一種在資源受限條件下相當務實的選擇,業界也有不少成功先例。

但它不是從零訓練的主權模型。

名字里的 "M",代表 Mistral。這不是外界的解讀,而是媒體報道中普遍流傳的說法,Sarvam 沒有公開否認。一家宣稱要造 " 印度自己的 AI"、剛剛拿到政府主權模型合同的公司,交出的第一個成果,用的是法國人的底座。

邏輯上可以解釋:政府的 H100 算力 4 月底才到位,Sarvam-M 的開發應該在此之前已經進行了相當長時間;發布 Sarvam-M,是為了給開發者提供一個可用的工具,同時為從零訓練積累數據管道和后訓練經驗;這是一個過渡性產品,不是最終答案。

這些解釋都站得住腳。但對于外部觀察者來說,一個從零訓練的承諾,和一個建立在 Mistral 底座上的發布,之間的距離是真實存在的。

而在接下來的二十四小時里,這個距離被放大到了所有人都看得見的程度。

三、23 個下載量

2025 年 5 月 24 日,Sarvam-M 上線兩天后,Menlo Ventures 投資人 Deedy Das 在 X 上發了一條帖子。

內容不長,但足夠精準:印度最大的 AI 創業公司,估值十億美元的 Sarvam,剛剛發布了它的旗艦大模型。上線兩天,Hugging Face 下載量:23 次。作為對比,他附上了另一組數字——兩名韓國大學生做的開源模型 Dia,上個月的下載量:約 20 萬次。

最后一個詞:「丟人」。

這條帖子的轉發量在幾小時內突破了印度科技圈的日常閾值。不是因為它特別刻薄——它確實刻薄——而是因為它把一個讓很多人隱隱不安的問題用數字說出來了:印度的 AI,到底在哪里?

批評很快分成了幾個方向。

技術路線的質疑最直接:基于 Mistral 微調,在 IndicLLM 基準上的得分僅比原始 Llama 高出 0.02,這是 Sarvam 值得驕傲的成績嗎?有開發者在 X 上貼出了對比數據—— Sarvam-M 0.49,Llama 原版 0.47,Gemma 0.48 ——然后問:這是 " 可感知的提升 " 嗎?

生態批評則更結構性。有投資人指出,印度沒有了 Koo 這樣的本土社交平臺,Sarvam-M 缺乏一個天然的早期用戶反饋場,下載量低不只是模型的問題,是整個生態的問題。也有人算了另一筆賬:印度 H100 極度稀缺,出口管制壓力持續存在,在這種資源約束下,Sarvam 能交出一個可用的 24B 印度語言模型,本身就不是一件容易的事——用 Hugging Face 幾小時的統計數據來定性一個項目,是在刻意誤讀。

支持的聲音里最有分量的,來自 Zoho 聯合創始人 Sridhar Vembu。他在 X 上寫道:" 我們做過的每一個產品,沒有一個一開始就是爆款。"

但外界爭議如何,Sarvam 的公關部門選擇了沉默。

真正開口的,是 Pratyush Kumar 本人。

他在 X 上轉發了批評帖子,寫了一句話:「很高興收到大家對 Sarvam-M 的反饋,請繼續。等我們開始訓練主權模型的時候,這些都會用上。」

這句話值得細讀。

他沒有辯解 Sarvam-M 的技術選擇,沒有解釋為什么用了 Mistral 底座,沒有反駁下載量數字,也沒有指責批評者不懂印度的資源限制。他做的事情是:把一次公開羞辱,原地轉化成了一個公開宣言。" 等我們開始訓練主權模型的時候 " ——不是 " 如果 ",是 " 等 "。不是 " 我們將來考慮從零開始 ",是 " 我們正在開始 "。

這句話發出的時間是 2025 年 5 月 25 日,距離 Sarvam-M 發布過去了四十八小時。

此后的幾天里,Sarvam-M 的 Hugging Face 下載量從 23 個反彈到 334 個,然后繼續緩慢爬升。不是什么了不起的數字,但至少證明最初的統計確實是因為 Hugging Face 數據延遲造成的偏差,而不是真實的用戶冷漠。

但數字的反彈并不是這個插曲真正的結局。

真正的結局,發生在八個月之后。屆時,曾經在 X 上寫下「丟人」的那個人,會主動發文說:"I was wrong."

但那是后話。

2025 年 5 月,Sarvam 需要面對的現實是:政府的 4096 塊 H100 已經就位,承諾從零訓練的合同已經簽署,外界的嘲諷已經變成了歷史記錄。接下來沒有別的路,只有一條。

四、4096 塊 GPU,重新開始

讓我們回到那筆交易本身。

4096 塊 NVIDIA H100,六個月使用期,托管在孟買郊外的 Yotta 數據中心。總賬單 2.47 億盧比,政府補貼其中的 9868 萬盧比。作為交換,Sarvam 讓出了一部分股權,訓練完成的模型必須開源。

這是印度政府在 IndiaAI Mission 框架下簽下的第一批主權模型合同之一。67 家機構參與申請,最終四家入選:Sarvam、Gnani.ai、Gan.ai 和 Soket AI Labs。Sarvam 拿到的算力分配是四家中最大的一塊。

從外部看,這是一筆對 Sarvam 極為有利的交易:政府出錢補貼算力,Sarvam 用政府的 GPU 訓練模型,訓練完開源,政府拿一點股權。性價比高得有些不真實。

但這筆交易的另一面,是一個約束。

開源意味著 Sarvam 不能把這個模型變成護城河。股權意味著政府成了 Sarvam 的股東,這個身份在任何國家都意味著某種隱性的期待和潛在的干預空間。算力是政府補貼的,但賬單的剩余部分——超過 1.5 億盧比——要 Sarvam 自己承擔。對一家年收入只有 2910 萬盧比的公司來說,這個數字意味著巨大的財務壓力。

更深的約束是時間。六個月,4096 塊 H100,目標是一個從零開始、在全球基準測試上有競爭力、同時精通印度語言的大模型。

在全球 AI 軍備競賽的背景下,這是一個聽起來有些冒險的賭注。2025 年初,OpenAI 的融資總額已經超過 180 億美元。DeepSeek 用相對有限的資源訓練出了震驚業界的 R1,但它背后是中國成熟的 AI 基礎設施生態。Sarvam 的 114 名員工,要在一個 GPU 基礎設施還不完善、訓練數據需要自己從頭整理的國家,完成這件事。

他們的回答,是從基礎設施開始做起。

Sarvam 的工程師首先重新設計了 tokenizer ——這是大模型處理文字的最底層組件。現有的主流 tokenizer 對印度文字效率極低,處理梵文、泰米爾文、孟加拉文這類非拉丁字母體系時,需要消耗比英文多出數倍的 token。Sarvam 重新訓練的 tokenizer,對印度文字的處理效率提升了三到四倍。這一步沒有任何可見度,不會出現在發布會的 PPT 上,但它決定了后續所有訓練的成本和效率。

數據管道是另一個自建的基礎設施。Sarvam 在內部搭建了一套評估數據質量的工具,從頭整理訓練語料。最終用于預訓練的數據量,30B 模型約為 16 萬億 token。這些數據的收集、清洗、標注,全部在印度國內完成。

強化學習基礎設施也是自研的。這個環節決定了模型在推理任務上的最終表現,也是 DeepSeek-R1 讓業界重新注意到的核心技術路線。Sarvam 選擇了同樣的方向,并把整套訓練流程完整地跑了一遍。

2025 年下半年,Sarvam 幾乎沒有對外發聲。

公司賬面上的年收入是 2910 萬盧比,折合約 350 萬美元。這是一個健康的早期創業公司收入,但在大模型訓練的語境下,這個數字說明 Sarvam 幾乎沒有任何財務緩沖。他們在用一家小公司的資源,做一件通常需要十倍體量才敢啟動的事情。

對外沉默的背后,是一支 114 人的團隊在訓練一個他們自己也不確定能否成功的模型。

五、14 天,14 次發布

2026 年 2 月 1 日,Sarvam 開始了一場密集的公開攻勢。

策略是刻意設計的:在 India AI Impact Summit 召開前的兩周,每天發布一個新產品或新功能,連續十四天不間斷。語音識別模型 Saaras V3、文字轉語音模型 Bulbul V3、文檔數字化工具 Sarvam Akshar、多語言內容創作平臺 Sarvam Studio ……一個接一個,節奏像節拍器一樣準確。

這個策略有一個明顯的參照對象:OpenAI 在 2024 年末的 "12 Days of OpenAI" 發布攻勢。Sarvam 把它改成了 14 天,因為峰會日期決定了窗口長度,但邏輯是一樣的——用密集的發布節奏制造輿論動能,讓媒體和開發者在峰會開幕之前就持續關注這家公司。

在峰會開幕前的密集發布期間,有一件事悄悄發生了。2 月 7 日,Sarvam 發布 Bulbul V3 語音合成模型當天,Deedy Das ——那個在 2025 年 5 月寫下「丟人」的人——主動在 X 上發了一篇帖子,開頭三個字:"I was wrong." 他說,他一年前認為訓練小型 Indic 語言模型的方向是錯的。" 但他們做到了轉變。他們有 Indic 語言最好的語音合成、語音識別和文字識別模型,這是真正有價值的東西。" 從「丟人」到 "I was wrong",八個月,觸發轉變的不是大模型,而是一個語音產品。

2 月 16 日,峰會開幕展覽日。

印度 Modi 總理在 Bharat Mandapam 的展覽區走了一圈。他在 Sarvam 的展臺前停下來,試戴了一副黑色眼鏡。這副眼鏡叫 Sarvam Kaze,是 Sarvam 研發的 AI 智能眼鏡原型,支持十種以上印度語言的實時語音交互,Pratyush Kumar 在 X 上發了一張 Modi 戴著眼鏡的照片,配文只有一句:「第一個試戴的人?總理。」

這張照片的傳播速度,超過了 Sarvam 過去兩年所有發布的總和。

2 月 18 日,Research Symposium,Sarvam 正式發布 Sarvam-30B 和 Sarvam-105B。

兩個模型,都從零訓練。30B 模型預訓練用了約 16 萬億 token,支持 32000 token 的上下文窗口,MoE 架構下每次推理只激活約 10 億參數,推理成本大幅壓縮。105B 模型支持 128000 token 的超長上下文,在 AIME 25 數學競賽基準上得分 88.3,使用工具后達到 96.7;MMLU 得分 90.6;Math500 得分 98.6。

Pratyush Kumar 在臺上說,105B 在多項推理基準上超過了 DeepSeek-R1 ——而 DeepSeek-R1 的總參數量是 6000 億,是 Sarvam-105B 的近六倍。

批評在幾小時內又來了。

有人在 X 上翻出了 Sarvam-105B 的架構配置文件,指其為 "DeepSeek 的山寨縮水版 "。有帖子把配置文件扔進 ChatGPT,得到的描述是 "Mini DeepSeek-V2 風格模型 "。這個截圖被廣泛轉發。對于剛剛經歷過 Sarvam-M 事件的人來說,這個指控聽起來似曾相識——上次是法國人的底座,這次是中國人的架構。

Pratyush Kumar 的回應比上次更直接。他在 X 上寫道,團隊欣賞 DeepSeek 的研究,也從中學習,但 Sarvam-105B 是用更小的規模做到了這些結果。一名 Sarvam 工程師補充:公司所有模型都是從零訓練的基礎模型,沒有例外。

這場爭議的實質,是一個在 AI 領域反復出現的認知誤區:架構和模型是兩件不同的事。架構是藍圖,是發表在學術論文里供所有人使用的設計方案;模型是訓練的產物,是數據、算力和工程決策共同生成的結果。

Sarvam 借鑒了 DeepSeek 在 Multi-head Latent Attention 和 Mixture of Experts 上的架構設計,正如 DeepSeek 借鑒了 Transformer,正如 Transformer 借鑒了注意力機制的早期論文。這是這個領域一直以來的運作方式。

2 月 20 日,Sarvam 發布了面向普通用戶的對話產品 Indus,登陸 App Store 和 Google Play。這是 Sarvam 第一次走出開發者和企業市場,直接面對消費者。

峰會結束了。距離 3 月 6 日開源,還有兩周。

尾聲

2026 年 3 月 6 日,Sarvam 把模型權重傳到了 Hugging Face。

沒有發布會,沒有倒計時直播。文件名 sarvamai/sarvam-30b 和 sarvamai/sarvam-105b,Apache 2.0 協議,商業使用不設障礙。同一天,模型也上傳到了印度政府的 AIKosh 平臺。

Pratyush Kumar 在 X 上寫了一段話:「開源 Sarvam 30B 和 105B。從零訓練,所有數據、模型研究和推理優化全部在內部完成。這些模型在大多數全球基準測試上表現突出,同時在印度語言上表現卓越。」

這句話里有一個詞值得停下來看一眼:"all done in-house",全部在內部完成。不是 Mistral 的底座,不是借來的架構實現,是一支 114 人的團隊,在一個 GPU 基礎設施直到最近才勉強夠用的國家,自己搭建 tokenizer、自己整理數據管道、自己寫強化學習基礎設施,從頭到尾跑完了一遍。

從 2023 年 12 月那場 18 人公司的融資發布會,到這兩個文件掛上 Hugging Face,中間過去了二十七個月。

這二十七個月里發生的事情,放在任何一個敘事框架里都可以講得通:可以是一家公司如何在公開羞辱中找回初心,可以是印度國家意志如何通過一紙算力合同把一家創業公司綁上主權敘事的戰車,也可以是兩個深度參與印度數字基礎設施的人,在 AI 范式切換的時間節點上,做了一次代價高昂但方向正確的押注。

這些敘事都是真的,也都是不完整的。

Sarvam 現在面對的問題,比兩年前更難回答:開源之后呢?當模型權重免費可得,公司的商業護城河在哪里?當全球大模型開始認真處理印度語言,Sarvam 的差異化還能維持多久?政府成為股東之后,商業利益和公共利益之間的張力,遲早會在某一個具體決策上顯現出來。

這些問題,2026 年 3 月 6 日那天沒有答案。

但那兩個文件已經在網上了。任何人都可以下載,任何人都可以修改,任何人都可以拿去用。

這是 Sarvam 最初承諾的那件事。

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

企業資訊

查看更多內容
主站蜘蛛池模板: 中国精品毛片 | 国产精品久久久免费观看 | 欧美爱爱网| 欧美日韩成人精品 | 亚洲经典在线观看 | 成人午夜免费在线观看 | 欧美极品jizzhd欧美 | 国产精品视频网 | 国产精品网站在线观看 | 欧美一级一区二区三区 | 欧美精品一二三区 | 青青视频在线免费观看 | 日韩三区四区 | 人人草在线视频 | 亚洲精品99 | 四虎国产精品永久免费观看视频 | 狠狠操狠狠操 | 性生活短视频 | 九九操| 成年人黄网站 | 四虎永久在线 | 97国产在线 | 丰满漂亮的日本岳 | 久久久久久在线观看 | 国产第9页 | 男人av网 | 成人在线激情视频 | 一季繁星越南剧在线观看免费 | 国产高清视频一区二区 | 亚洲第一av网站 | 久久久xxx | 手机看片国产日韩 | 69国产精品 | 亚洲操一操 | 国产精品自产拍 | 日本黄页网站免费大全 | 中文字幕――色哟哟 | 精品久久久久久中文字幕 | 日韩成人av网站 | 欧美成人午夜免费视在线看片 | 久草这里只有精品 |