字節跳動近日在語音交互領域邁出重要一步,正式發布原生全雙工語音大模型 Seeduplex。這款基于 " 邊聽邊說 " 架構研發的語音系統,通過突破傳統半雙工模式的交互局限,實現了對話流暢度與自然度的顯著提升,標志著全雙工技術從實驗室走向大規模商用階段。
相較于前代豆包端到端語音模型采用的半雙工模式,Seeduplex 的創新性體現在同步處理輸入輸出信號的能力上。該模型通過優化神經網絡架構,使系統能夠在接收語音的同時即時生成響應,徹底改變了傳統語音交互中 " 先聽后說 " 的延遲模式。經實測,新系統在對話連貫性、語義理解準確率等核心指標上均有突破性進展。
目前該技術已全面集成至豆包 App,為超過 1 億用戶提供實時語音服務。這項部署創造了行業先例——首次將實驗室級別的全雙工技術轉化為億級用戶規模的商業應用。用戶在使用過程中可體驗到類似真人對話的交互效果,系統能自然處理打斷、停頓等復雜場景,在車載導航、智能客服等場景具有廣泛應用前景。
技術團隊透露,Seeduplex 的研發歷時 18 個月,涉及聲學建模、語言理解、多模態感知等多個領域的協同突破。其核心優勢在于構建了端到端的語音處理管道,通過自監督學習框架顯著提升了系統在噪聲環境下的魯棒性。隨著 5G 網絡的普及和邊緣計算的發展,這類實時交互技術有望重塑人機溝通方式。返回搜狐,查看更多
平臺聲明:該文觀點僅代表作者本人,搜狐號系信息發布平臺,搜狐僅提供信息存儲空間服務。