IndexTTS-2

IndexTTS-2

IndexTeam/IndexTTS-2

關於IndexTTS-2

IndexTTS2 是一個突破性的自回歸零樣本文本轉語音(TTS)模型,旨在解決大規模 TTS 系統中精確持續時間控制的挑戰,這在視頻配音等應用中是一個重要的限制。此模型引入了一種新穎的、通用的語音持續時間控制方法,支持兩種模式:一種明確指明生成標記數量以實現精確的持續時間控制,另一種則以自回歸方式自由生成語音。此外,IndexTTS2 實現了情感表達與說話者身份的解耦,能夠通過單獨的提示獨立控制音色和情感。為了增強高度情感化表達中的語音清晰度,模型中整合了 GPT 潛在表徵並利用了一種新穎的三階段訓練範式。為了降低情感控制的門檻,它還具有基於文本描述的軟指令機制,通過微調 Qwen3 有效地引導以期望情感基調生成語音。實驗結果顯示,IndexTTS2 在多個數據集上,單詞錯誤率、說話者相似性和情感保真度方面均優於最先進的零樣本 TTS 模型。

可用的無伺服器

立即運行查詢,僅按使用量付費

$

$

每百萬 Tokens(輸入/輸出)

元數據

創建於

2025年9月10日

許可證

APACHE-2.0

供應商

IndexTeam

HuggingFace

規格

狀態

可用

架構

經過校準的

專家並行

總參數

1B

啟用的參數

推理

精度

FP8

上下文長度

0K

最大輸出長度

支援的功能

無伺服器

支持

無伺服器的 LoRA

不支持

微調

不支持

向量嵌入

不支持

重排序

不支持

支援圖片輸入

不支持

JSON 模式

不支持

結構化輸出

不支持

工具

不支持

中間填充補全

不支持

聊天前綴補全

不支持

準備好 加速您的人工智能開發了嗎?

準備好 加速您的人工智能開發了嗎?

準備好 加速您的人工智能開發了嗎?

Chinese (Traditional Han, Taiwan)

© 2025 SiliconFlow

Chinese (Traditional Han, Taiwan)

© 2025 SiliconFlow

Chinese (Traditional Han, Taiwan)

© 2025 SiliconFlow