在即時數位人技術持續演進的背景下,Soul App近期完成了一次技術突破。 圍繞「高畫質與低成本難以兼得」的行業難題,Soul張璐團隊在此前開源即時數位人模型 SoulX-FlashTalk 的基礎上,推出了輕量化、可復用的即時數位人生成模型 SoulX-FlashHead。
該模型參數規模為1.3B,卻能夠在單張RTX 4090顯卡上實現 96FPS 的推理速度,並在畫面穩定性與唇形一致性上達到工業級水準。 在消費級顯卡環境中, SoulX-FlashHead實現了高幀率與穩定畫質的兼顧,為即時數位人應用提供了新的技術路徑。

在模型設計層面,SoulX-FlashHead通過訓練機制與時序建模的創新,實現“以小博大”。 引入的雙向蒸餾機制(Oracle-Guided Distillation)為模型提供了更強的身份約束。 在長視頻生成中,人物特徵隨時間漂移一直是行業公認難點。 該機制通過「教師模型」以 Ground Truth作為錨點進行引導,使生成結果在長時序下保持一致性,顯著降低身份偏移風險。
針對即時流式生成中常見的口型抖動問題,SoulX-FlashHead還引入了“時序音訊上下文緩存”(TACC)策略。 模型在推理過程中強制保留8秒歷史音頻特徵,用於補償短音訊切片帶來的上下文不足。 該設計使模型在開播初期即可進入穩定狀態,減少了口型錯位與節奏不連貫的情況,提升了整體觀感。
數據質量同樣是模型表現的重要基礎。 Soul構建了自研的 VividHead數據集,從超過10,000小時素材中篩選出782小時高品質音畫數據,並通過多輪處理流程進行凈化,包括切分、DWpose 關鍵點提取以及唇形一致性評分過濾等步驟,為模型訓練提供了更可靠的數據底座。

在實際性能表現上,SoulX-FlashHead的Lite 版本在單張 RTX 4090上可達到96FPS的推理幀率,僅佔用約6.4G顯存,並支援最高3路併發,顯著降低了即時數位人的部署門檻。 Pro版本在單張RTX 5090上可實現16.8FPS。 在HDTF與VFHQ兩個權威數據集的測試中,SoulX-FlashHead的表現進一步驗證了其技術路線的有效性。 在高清視頻場景下,Pro版本在FID與FVD等指標上刷新了現有成績,畫面細節與穩定性優於部分高參數量模型; 在複雜真實場景中,其唇形同步指標Sync-C達到5.60,體現了時序音訊建模策略的實際價值。 就效率而言,Lite版本在單卡RTX 4090上實現的96FPS 輸送量,不僅明顯高於即時基準,也體現出輕量化模型在工程部署中的優勢。

對比今年1月開源的SoulX-FlashTalk,SoulX-FlashHead實現了場景突破。 前者以0.87s亞秒級超低延時、32FPS高幀率與支援超長視頻穩定生成,驗證了實時數位人的可行性。 後者則進一步將高保真能力下沉到個人工作站,使相關技術從集中算力環境走向更廣泛的使用場景。
目前,SoulX-FlashHead已在多類應用設想中展現出適配性。 例如:個人主播可在一台遊戲PC上搭建7×24小時的矩陣直播; 遊戲場景中,模型體量更易集成,可實現NPC毫秒級回應而不佔用核心渲染資源; 在一對一教學場景下,模型支援多語言音訊驅動,增強了實時互動的表現力。
在保持畫面穩定與交互自然的前提下,Soul張璐團隊通過開源SoulX-FlashHead將高保真數位人能力引入消費級硬體環境,展示了實時數位人在“算力可及性”與“體驗品質”之間取得平衡的可能性,也為實時數位人技術的實際落地提供了新的參考樣本。
