近日,Soul App張璐團隊在AI語音交互領域取得進展。 其主導開源的語音合成模型SoulX-Podcast,在發佈次日便登頂全球最大AI開源社區Hugging Face的TTS(從文本到語音)模型趨勢榜首位,並在社區總趨勢榜單中排名持續攀升,引發了行業內的廣泛關注與討論。

Hugging Face作為全球頂尖的開源社區,彙聚了超過百萬的開發者與研究人員,是各類前沿AI模型發佈與驗證的重要平臺。 社區成員通過實際使用與評估,推動性能優秀、實用性強的模型脫穎而出。 SoulX-Podcast模型上線后迅速獲得開發者社區的認可,躋身趨勢榜首,這不僅反映了市場對更智慧、更自然AI語音對話技術的期待,也印證了該模型本身具備的技術吸引力與創新價值。
此次引發關注的SoulX-Podcast模型,是Soul App旗下AI團隊(Soul AI Lab)與西北工業大學ASLP@NPU團隊、上海交通大學X-LANCE Lab團隊共同合作的成果。 該模型專為處理多人參與、多輪次交替的複雜對話場景而設計。 它的一大特色在於支援中文、英文、四川方言、粵語等多種語言及方言的生成,並能類比包含笑聲、歎息等在內的副語言風格,從而極大地增強了語音表達的生動性與真實感。 在技術表現上,該模型能夠穩定生成超過60分鐘的自然流暢語音,且在長對話中角色切換準確,韻律節奏富有變化,有效提升了語音內容的沉浸感。

在傳統語音合成技術的應用中,模型難以應對多人、多輪對話的複雜場景,往往會存在上下文銜接不自然、情感與風格表達缺失、以及模擬真實對話中細微語氣起伏能力不足等問題。 這些技術瓶頸在一定程度上制約了人機交互體驗的提升。 而SoulX-Podcast模型的研發,正是針對上述挑戰展開。 其在類比播客對話、通用語音合成及聲音克隆等場景下所展現出的出色能力,特別是所生成語音的生動性與真實感,成為其在開源社區迅速走紅的主要原因。
與此同時,SoulX-Podcast模型在AI開發者社群與技術愛好者中引發了積極反響,許多從業者對國產語音合成模型所達到的技術水準表示了認可。 Hugging Face的首席執行官Clément Delangue也注意到了這一模型,並在社交平臺上轉發了相關的技術討論內容,進一步擴大了該模型的國際影響力。

此次開源模型SoulX-Podcast登頂Hugging Face趨勢榜,顯示出Soul在推進AI與社交融合的技術探索道路上邁出了堅實的一步。 通過將前沿研究成果向全球開發者開放,Soul張璐團隊不僅展示了自身的技術積累,也為整個AI語音交互領域的技術進步提供了新的動力。
