關於IndexTTS-2
IndexTTS2 是一項突破性的自回歸零樣本文本到語音(TTS)模型,旨在解決大型 TTS 系統中精準時長控制的挑戰,這是像視頻配音這樣的應用程序中的一個重大限制。它引入了一種新穎的通用語音時長控制方法,支持兩種模式:一種是明確指定生成 token 的數量以實現精確時長,另一種是以自回歸方式自由生成語音。此外,IndexTTS2 實現了情感表達和說話者身份之間的解耦,通過單獨的提示實現對音色和情感的獨立控制。為了增強在高度情緒化表達中的語音清晰度,模型融合了 GPT 潛在表示並採用了一種新穎的三階段訓練範式。為了降低情感控制的門檻,還引入了一種基於文本描述的軟指令機制,通過微調 Qwen3 開發而成,以有效引導生成具有所需情感色調的語音。實驗結果顯示 IndexTTS2 在字錯誤率、說話者相似性和情感保真度方面超越了多個數據集中的最先進零樣本 TTS 模型。
可用的無伺服器
立即運行查詢,僅按使用量付費
$
7.15
每百萬個 UTF-8 字節
元數據
規格
狀態
Available
架構
auto-regressive zero-shot Text-to-Speech (TTS) model, utilizes GPT latent representations, features a novel three-stage training paradigm, incorporates a soft instruction mechanism based on text descriptions developed by fine-tuning Qwen3
經過校準的
是
專家並行
否
總參數
1B
啟用的參數
推理
否
精度
FP8
上下文長度
0K
最大輸出長度
支援的功能
無伺服器
支持
無伺服器的 LoRA
不支持
微調
不支持
向量嵌入
不支持
重排序
不支持
支援圖片輸入
不支持
JSON 模式
不支持
結構化輸出
不支持
工具
不支持
中間填充補全
不支持
聊天前綴補全
不支持
