作者丨歐雪
編輯丨袁斯來
過去兩年,主流 AI 交互依賴于輸入框——用戶先組織語言提問,AI 再給出答案。
這種 " 對話式 " 交互效率極高,卻與人類最自然的認知路徑相悖。我們認識世界,從來不是從 " 提問 " 開始,而是從 " 看見 " 開始。
一家成立于 2025 年的年輕公司 Chance AI,正在嘗試解決這個問題。它提出了另一種 AI 產品形態—— Visual Agent(視覺智能體),試圖讓 AI 從 " 回答問題 " 的工具,進化為 " 看懂世界 " 的系統。
Chance AI 的創始人曾熙,路徑橫跨學術與產業。他在巴塞羅那大學獲得博士學位,研究方向是認知科學與當代藝術,關注人類如何通過視覺理解世界。畢業后進入消費電子行業,在 OnePlus、OPPO 負責產品與設計,隨后加入字節跳動,在 Flow 部門參與豆包等 AI 產品從 0 到 1 的探索。
之前的從業經歷讓他意識到一個結構性問題:大語言模型擅長 " 生成語言 " 和 " 回答問題 ",但對于人類如何在現實世界中基于視覺形成判斷,AI 提供的支持仍非常不足。
2025 年 1 月他從字節離開,3 月注冊公司,7 月正式運營,9 月上線首款產品 Chance AI。
Chance AI 以攝像頭為核心交互入口,用戶打開即可拍攝眼前事物,AI 實時進行視覺推理。
在實際使用中,它被廣泛用于逛展時解讀藝術品、購物時分析穿搭、識別卡牌與潮玩版本、檢測皮膚狀態,以及拍菜單、識植物、看寵物等日常探索。曾熙向硬氪透露,目前大部分使用場景由用戶自發挖掘,而非團隊預設。

從技術來看,其 Visual Agent 在衡量多模態模型視覺推理能力的權威基準 MMMU-Pro 評測中取得 86.07 分,位居世界第一。
今年 3 月,Chance AI 成為 Art Central 官方 AI 合作伙伴,這是 AI 首次進入國際大型藝術展會的 " 觀看過程 "。在現場,觀眾用攝像頭對準藝術品,AI 會實時參與觀看,一邊看一邊交流。

支撐這一體驗的是其剛推出的 "Live 模式 " ——實時視覺交互系統。與行業中已有的實時識別不同,其 Live 模式可以在實時視覺場景中,將知識檢索、內容對比、上下文理解、多能力調度等多種視覺智能能力整合為一個完整的、具備實時響應能力的智能體。

截至目前,Chance AI 全球總下載量超過 20 萬,月活躍用戶在 4-6 萬之間。
曾熙透露,公司目前幾乎沒有進行市場投放,所有增長均來自自然傳播,其核心用戶是 25 歲以下的年輕人。
談及未來規劃,曾熙表示,2026 年最重要的目標是在北美學生群體中進行更大規模的擴張。但這不是傳統意義上的市場推廣,而是深入用戶社群,挖掘年輕人真實的使用場景。
與純 AI 應用層創業者不同,這位擁有硬件大廠背景的連續創業者,從一開始就把 " 軟硬一體 " 寫進了產品路線圖。曾熙認為,未來適合他們產品的硬件形態,應該是一顆包攬人們所有視覺信息的攝像頭。
我們對曾熙做了訪談,聊了聊他對行業發展以及技術路線的看法。
以下是訪談節選:
硬氪:目前很多 AI 產品都有視覺能力,Chance AI 的差異化優勢在哪里?
曾熙:我認為接下來很難有一家獨大的 AI 公司了,大家會分得很開。我們選擇深耕視覺,是因為今天大家還沒關注到,但未來會是主流。
我們的護城河不是模型多強,而是能多快跟真實用戶交互。今天我們自己設計的功能不到 20-30%,剩下都是用戶告訴我們的——拍皮膚、看菜單、識別卡牌、吐槽……你要做到這些,必須跟用戶離得足夠近。我們曾經在 6 個小時內滿足了一個紐約大學的潮流文化社團的需求,讓他們能識別特定卡牌。這是 Google 或 OpenAI 做不到的。
硬氪:目前 APP 沒有任何收費內容,未來的商業模式怎么走?
曾熙:我們目前有三個方向。第一,高級功能訂閱,這是今年的計劃。我們工程能力比較好,成本做得低,所以沒有迫切的收費壓力。第二,硬件授權,我們正在和一些硬件廠商聊,他們投入在硬件很難有時間打磨模型層之上的產品,這是我們擅長的。第三,廣告推薦,但會非常謹慎。對我們來說,優先級最高的是先養成用戶習慣——讓用戶看到什么都習慣性地先拍一拍。如果你成為一個入口級的產品,商業機會自然會出現。
硬氪:你們會自己做硬件嗎?大概什么時候?
曾熙:看行業情況。當我們判斷供應鏈成熟以后,一定會奮不顧身地殺進去。但更重要的是,我們不會為了做硬件而做硬件。
我們的本質是視覺推理能力,Live 模式只是這種能力的一個展現。我們認為未來的隨身 AI 硬件一定是一個攝像頭,可以包攬你所有眼睛正在看的東西,然后提供下一步有價值的行動。這是我們跟所有現有產品的本質區別——我們的起點沒有輸入框,起點就是 " 看 "。