關於IndexTTS-2
IndexTTS2 是一個突破性的自回歸零樣本文本轉語音(TTS)模型,旨在解決大規模 TTS 系統中精確持續時間控制的挑戰,這在視頻配音等應用中是一個重要的限制。此模型引入了一種新穎的、通用的語音持續時間控制方法,支持兩種模式:一種明確指明生成標記數量以實現精確的持續時間控制,另一種則以自回歸方式自由生成語音。此外,IndexTTS2 實現了情感表達與說話者身份的解耦,能夠通過單獨的提示獨立控制音色和情感。為了增強高度情感化表達中的語音清晰度,模型中整合了 GPT 潛在表徵並利用了一種新穎的三階段訓練範式。為了降低情感控制的門檻,它還具有基於文本描述的軟指令機制,通過微調 Qwen3 有效地引導以期望情感基調生成語音。實驗結果顯示,IndexTTS2 在多個數據集上,單詞錯誤率、說話者相似性和情感保真度方面均優於最先進的零樣本 TTS 模型。
可用的無伺服器
立即運行查詢,僅按使用量付費
$
/
$
每百萬 Tokens(輸入/輸出)
元數據
規格
狀態
可用
架構
經過校準的
是
專家並行
不
總參數
1B
啟用的參數
推理
不
精度
FP8
上下文長度
0K
最大輸出長度
支援的功能
無伺服器
支持
無伺服器的 LoRA
不支持
微調
不支持
向量嵌入
不支持
重排序
不支持
支援圖片輸入
不支持
JSON 模式
不支持
結構化輸出
不支持
工具
不支持
中間填充補全
不支持
聊天前綴補全
不支持
與其他模型比較
看看這個模型與其他模型的對比如何。
