IndexTeam
IndexTTS-2
發行日期:2025年9月10日
IndexTTS2 是一項突破性的自回歸零樣本文本到語音(TTS)模型,旨在解決大型 TTS 系統中精準時長控制的挑戰,這是像視頻配音這樣的應用程序中的一個重大限制。它引入了一種新穎的通用語音時長控制方法,支持兩種模式:一種是明確指定生成 token 的數量以實現精確時長,另一種是以自回歸方式自由生成語音。此外,IndexTTS2 實現了情感表達和說話者身份之間的解耦,通過單獨的提示實現對音色和情感的獨立控制。為了增強在高度情緒化表達中的語音清晰度,模型融合了 GPT 潛在表示並採用了一種新穎的三階段訓練範式。為了降低情感控制的門檻,還引入了一種基於文本描述的軟指令機制,通過微調 Qwen3 開發而成,以有效引導生成具有所需情感色調的語音。實驗結果顯示 IndexTTS2 在字錯誤率、說話者相似性和情感保真度方面超越了多個數據集中的最先進零樣本 TTS 模型。...
$
7.15
/ M UTF-8 位字節
Fish Audio
Fish-Speech-1.5
發行日期:2024年11月29日
Fish Speech V1.5 是一個領先的開源語音合成(TTS)模型。該模型採用了創新的 DualAR 架構,具有雙自回歸變壓器設計。它支持多種語言,包括英語和中文的訓練數據超過 300,000 小時,以及日語的訓練數據超過 100,000 小時。 在 TTS Arena 獨立評估中,該模型表現非常出色,ELO 得分為 1339。該模型在英語的詞語錯誤率(WER)為 3.5%,字符錯誤率(CER)為 1.2%,以及中文字的字符錯誤率(CER)為 1.3%。...
$
15.0
/ M UTF-8 位字節

FunAudioLLM
FunAudioLLM/CosyVoice2-0.5B
發行日期:2024年12月16日
CosyVoice 2 是一個基於大型語言模型的流式語音合成模型,採用統一的流式/非流式框架設計。模型通過有限標量量化(FSQ)增強了語音token代碼簿的使用,簡化了文本到語音的語言模型結構,並開發了支持不同合成場景的塊感知因果流式匹配模型。在流式模式下,模型實現了150毫秒的超低延遲,同時保持的合成質量幾乎與非流式模式相同。與1.0版相比,發音錯誤率降低了30%-50%,MOS評分從5.4提高到5.53,並支持對情感和方言的細粒度控制。該模型支持中文(包括方言:粵語、四川話、上海話、天津話等)、英語、日語、韓語,並支持跨語言和混合語言場景。...
$
7.15
/ M UTF-8 位字節

