Soul張璐團隊開源即時數位人生成模型SoulX-FlashHead，實現小參數高畫質

在即時數位人技術持續演進的背景下，Soul App近期完成了一次技術突破。圍繞「高畫質與低成本難以兼得」的行業難題，Soul張璐團隊在此前開源即時數位人模型 SoulX-FlashTalk 的基礎上，推出了輕量化、可復用的即時數位人生成模型 SoulX-FlashHead。

該模型參數規模為1.3B，卻能夠在單張RTX 4090顯卡上實現 96FPS 的推理速度，並在畫面穩定性與唇形一致性上達到工業級水準。在消費級顯卡環境中， SoulX-FlashHead實現了高幀率與穩定畫質的兼顧，為即時數位人應用提供了新的技術路徑。

在模型設計層面，SoulX-FlashHead通過訓練機制與時序建模的創新，實現“以小博大”。引入的雙向蒸餾機制（Oracle-Guided Distillation）為模型提供了更強的身份約束。在長視頻生成中，人物特徵隨時間漂移一直是行業公認難點。該機制通過「教師模型」以 Ground Truth作為錨點進行引導，使生成結果在長時序下保持一致性，顯著降低身份偏移風險。

針對即時流式生成中常見的口型抖動問題，SoulX-FlashHead還引入了“時序音訊上下文緩存”（TACC）策略。模型在推理過程中強制保留8秒歷史音頻特徵，用於補償短音訊切片帶來的上下文不足。該設計使模型在開播初期即可進入穩定狀態，減少了口型錯位與節奏不連貫的情況，提升了整體觀感。

數據質量同樣是模型表現的重要基礎。 Soul構建了自研的 VividHead數據集，從超過10,000小時素材中篩選出782小時高品質音畫數據，並通過多輪處理流程進行凈化，包括切分、DWpose 關鍵點提取以及唇形一致性評分過濾等步驟，為模型訓練提供了更可靠的數據底座。

在實際性能表現上，SoulX-FlashHead的Lite 版本在單張 RTX 4090上可達到96FPS的推理幀率，僅佔用約6.4G顯存，並支援最高3路併發，顯著降低了即時數位人的部署門檻。 Pro版本在單張RTX 5090上可實現16.8FPS。在HDTF與VFHQ兩個權威數據集的測試中，SoulX-FlashHead的表現進一步驗證了其技術路線的有效性。在高清視頻場景下，Pro版本在FID與FVD等指標上刷新了現有成績，畫面細節與穩定性優於部分高參數量模型; 在複雜真實場景中，其唇形同步指標Sync-C達到5.60，體現了時序音訊建模策略的實際價值。就效率而言，Lite版本在單卡RTX 4090上實現的96FPS 輸送量，不僅明顯高於即時基準，也體現出輕量化模型在工程部署中的優勢。

對比今年1月開源的SoulX-FlashTalk，SoulX-FlashHead實現了場景突破。前者以0.87s亞秒級超低延時、32FPS高幀率與支援超長視頻穩定生成，驗證了實時數位人的可行性。後者則進一步將高保真能力下沉到個人工作站，使相關技術從集中算力環境走向更廣泛的使用場景。

目前，SoulX-FlashHead已在多類應用設想中展現出適配性。例如：個人主播可在一台遊戲PC上搭建7×24小時的矩陣直播; 遊戲場景中，模型體量更易集成，可實現NPC毫秒級回應而不佔用核心渲染資源; 在一對一教學場景下，模型支援多語言音訊驅動，增強了實時互動的表現力。

在保持畫面穩定與交互自然的前提下，Soul張璐團隊通過開源SoulX-FlashHead將高保真數位人能力引入消費級硬體環境，展示了實時數位人在“算力可及性”與“體驗品質”之間取得平衡的可能性，也為實時數位人技術的實際落地提供了新的參考樣本。