模型

產品

定價

文檔

部落格

關於

聯繫

🎉 Kimi-K3可在 SiliconFlow 上使用。現在就試試看。

🎉 Kimi-K3可在 SiliconFlow 上使用。現在就試試看。

模型

IndexTTS-2

IndexTTS-2

IndexTeam/IndexTTS-2

API 參考

關於IndexTTS-2

IndexTTS2 是一項突破性的自回歸零樣本文本到語音（TTS）模型，旨在解決大型 TTS 系統中精準時長控制的挑戰，這是像視頻配音這樣的應用程序中的一個重大限制。它引入了一種新穎的通用語音時長控制方法，支持兩種模式：一種是明確指定生成 token 的數量以實現精確時長，另一種是以自回歸方式自由生成語音。此外，IndexTTS2 實現了情感表達和說話者身份之間的解耦，通過單獨的提示實現對音色和情感的獨立控制。為了增強在高度情緒化表達中的語音清晰度，模型融合了 GPT 潛在表示並採用了一種新穎的三階段訓練範式。為了降低情感控制的門檻，還引入了一種基於文本描述的軟指令機制，通過微調 Qwen3 開發而成，以有效引導生成具有所需情感色調的語音。實驗結果顯示 IndexTTS2 在字錯誤率、說話者相似性和情感保真度方面超越了多個數據集中的最先進零樣本 TTS 模型。

可用的無伺服器

立即運行查詢，僅按使用量付費

每百萬 Tokens（輸入/輸出）

$

7.15

/ M UTF-8 bytes

體驗中心

API 使用

基準

用例

Loading...

元數據

創建於

2025年9月10日

許可證

APACHE-2.0

供應商

IndexTeam

HuggingFace

規格

狀態

Available

架構

Auto-regressive TTS

經過校準的

是

專家並行

否

總參數

1B

啟用的參數

1B

推理

否

精度

FP8

上下文長度

0K

最大輸出長度

支援的功能

無伺服器

支持

無伺服器的 LoRA

不支持

微調

不支持

向量嵌入

不支持

重排序

不支持

支援圖片輸入

不支持

JSON 模式

不支持

結構化輸出

不支持

工具

不支持

中間填充補全

不支持

聊天前綴補全

不支持

與其他模型比較

看看這個模型與其他模型的對比如何。

IndexTeam

text-to-speech

IndexTTS-2

發行日期：2025年9月10日

總上下文：

0K

最大輸出：

輸入：

$

/ M UTF-8 bytes

輸出：

$

/ M UTF-8 bytes

準備好加速您的人工智能開發了嗎？

準備好加速您的人工智能開發了嗎？

準備好加速您的人工智能開發了嗎？

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·