感謝開源
據(jù) AIPress 報道,一個名為 HappyHorse-1.0 的匿名視頻模型在權(quán)威評測網(wǎng)站 Artificial Analysis 榜單上強勢登頂。


這匹開心馬背后的身份背景極其亮眼。多方消息確認(rèn),該項目出自阿里淘天集團旗下的 " 未來生活實驗室 ",而負(fù)責(zé)人正是職級 P11 的行業(yè)翹楚——張迪。
張迪的履歷在業(yè)內(nèi)堪稱傳奇。他曾于 2020 年至 2025 年間擔(dān)任快手副總裁,被業(yè)界譽為 " 可靈之父 "。在快手期間,他主導(dǎo)搭建了可靈大模型的底層架構(gòu)。2025 年 11 月,在經(jīng)歷短暫的 B 站轉(zhuǎn)戰(zhàn)后,張迪正式回歸阿里。
Happy Horse 1.0 的核心賣點,是把視頻和音頻的生成徹底合并進(jìn)了同一個流程。大多數(shù)開源視頻模型的工作方式是:先生成一段沒有聲音的視頻,再找另一個模型配音,再找另一個工具做口型對齊,幾道工序下來,時間和誤差都在疊加。
而 Happy Horse 1.0 用一個統(tǒng)一的 Transformer 同時處理視頻和音頻,一次前向推理直接輸出帶聲音的成片,口型、腳步聲、環(huán)境音全部在同一個過程里生成,不需要任何后期拼接。
模型參數(shù)量是 150 億,架構(gòu)上是純自注意力 Transformer,沒有交叉注意力,沒有獨立的音頻分支,也沒有專門的條件網(wǎng)絡(luò)。整體設(shè)計刻意追求極簡——把所有模態(tài)(文本、圖像、視頻、音頻)的 token 拼成同一個序列,讓模型在去噪過程中自己學(xué)會跨模態(tài)對齊。
在結(jié)構(gòu)上,40 層 Transformer 采用了一種 " 三明治 " 布局:頭 4 層和尾 4 層用模態(tài)專屬的投影層處理各自的輸入輸出,中間 32 層則是所有模態(tài)共享參數(shù)。實際的跨模態(tài)推理就發(fā)生在這 32 層里,這也是整個架構(gòu)參數(shù)效率最高的地方。
此外,每個注意力頭都有一個可學(xué)習(xí)的標(biāo)量門控,用 sigmoid 激活,專門用來穩(wěn)定多模態(tài)聯(lián)合訓(xùn)練時的梯度——畢竟音頻損失和視頻損失同時反傳,很容易互相打架。
速度方面,模型采用了 DMD-2 蒸餾技術(shù)(Distribution Matching Distillation v2),把去噪步數(shù)從通常的 25 到 50 步壓縮到了 8 步,同時不需要無分類器引導(dǎo)(CFG),這一項本身就能砍掉將近一半的計算量。再配合 MagiCompiler 全圖編譯運行時帶來的約 1.2 倍額外加速,在單張 H100 上,生成一段 1080p 視頻只需要大約 38 秒,256p 的預(yù)覽版本則在 2 秒左右就能出來。
目前 Happy Horse 1.0 在官網(wǎng)可通過文本生成和圖片生成兩種方式體驗生成視頻,不同模型對制作時長的限制各不相同。
往期閱讀:V 社也在開發(fā) AI 工具:SteamGPT 曝光,可迅速處理玩家游戲舉報、退款咨詢等問題
