IndexTTS2 是一項突破性的自回歸零樣本文本到語音(TTS)模型,旨在解決大型 TTS 系統中精準時長控制的挑戰,這是像視頻配音這樣的應用程序中的一個重大限制。它引入了一種新穎的通用語音時長控制方法,支持兩種模式:一種是明確指定生成 token 的數量以實現精確時長,另一種是以自回歸方式自由生成語音。此外,IndexTTS2 實現了情感表達和說話者身份之間的解耦,通過單獨的提示實現對音色和情感的獨立控制。為了增強在高度情緒化表達中的語音清晰度,模型融合了 GPT 潛在表示並採用了一種新穎的三階段訓練範式。為了降低情感控制的門檻,還引入了一種基於文本描述的軟指令機制,通過微調 Qwen3 開發而成,以有效引導生成具有所需情感色調的語音。實驗結果顯示 IndexTTS2 在字錯誤率、說話者相似性和情感保真度方面超越了多個數據集中的最先進零樣本 TTS 模型。...