IndexTeam
Text-to-Speech
IndexTTS-2
Dirilis pada: 10 Sep 2025
IndexTTS2 adalah sebuah model Text-to-Speech (TTS) terobosan auto-regressive zero-shot yang dirancang untuk mengatasi tantangan kontrol durasi yang tepat dalam sistem TTS berskala besar, yang merupakan keterbatasan signifikan dalam aplikasi seperti dubbing video. Model ini memperkenalkan metode umum yang baru untuk kontrol durasi ucapan, mendukung dua mode: satu yang secara eksplisit menentukan jumlah token yang dihasilkan untuk durasi yang tepat, dan yang lain yang menghasilkan ucapan secara bebas dalam cara auto-regressive. Selain itu, IndexTTS2 mencapai pemisahan antara ekspresi emosional dan identitas pembicara, memungkinkan kontrol independen atas timbre dan emosi melalui prompt yang terpisah. Untuk meningkatkan kejelasan ucapan dalam ekspresi yang sangat emosional, model ini mengintegrasikan representasi laten GPT dan memanfaatkan paradigma pelatihan tiga tahap yang baru. Untuk menurunkan hambatan kontrol emosional, model ini juga memiliki mekanisme instruksi lembut berdasarkan deskripsi teks, yang dikembangkan dengan cara Fine-tuning Qwen3, untuk secara efektif membimbing generasi ucapan dengan nada emosional yang diinginkan. Hasil eksperimen menunjukkan bahwa IndexTTS2 mengungguli Model TTS zero-shot terkini dalam tingkat kesalahan kata, kesamaan pembicara, dan kesetiaan emosional di berbagai dataset....
$
7.15
/ M UTF-8 bytes
Fish Audio
Text-to-Speech
Fish-Speech-1.5
Dirilis pada: 29 Nov 2024
Fish Speech V1.5 adalah model text-to-speech (TTS) open-source terkemuka. Model ini memanfaatkan arsitektur DualAR yang inovatif, menampilkan desain transformer autoregressive ganda. Ini mendukung beberapa bahasa, dengan lebih dari 300.000 jam data pelatihan untuk Bahasa Inggris dan Cina, dan lebih dari 100.000 jam untuk Bahasa Jepang. Dalam evaluasi independen oleh TTS Arena, model ini berkinerja sangat baik, dengan skor ELO 1339. Model ini mencapai tingkat kesalahan kata (WER) sebesar 3,5% dan tingkat kesalahan karakter (CER) sebesar 1,2% untuk Bahasa Inggris, serta CER sebesar 1,3% untuk karakter Cina....
$
15.0
/ M UTF-8 bytes

FunAudioLLM
Text-to-Speech
FunAudioLLM/CosyVoice2-0.5B
Dirilis pada: 16 Des 2024
CosyVoice 2 adalah Model sintesis suara streaming berdasarkan Model bahasa besar, menggunakan desain kerangka kerja streaming/tidak-streaming yang terpadu. Model tersebut meningkatkan pemanfaatan buku kode token suara melalui kuantisasi skalar terbatas (FSQ), menyederhanakan arsitektur Model bahasa Text-to-speech, dan mengembangkan Model pencocokan streaming kausal yang sadar chunk yang mendukung berbagai skenario sintesis. Dalam mode streaming, Model mencapai latensi ultra-rendah 150ms sambil mempertahankan kualitas sintesis yang hampir identik dengan mode non-streaming. Dibandingkan dengan versi 1.0, tingkat kesalahan pengucapan telah berkurang sebesar 30%-50%, skor MOS meningkat dari 5,4 menjadi 5,53, dan kontrol mendetail atas emosi serta dialek didukung. Model ini mendukung Bahasa Mandarin (termasuk dialek: Kanton, dialek Sichuan, bahasa Shanghai, dialek Tianjin, dll.), Bahasa Inggris, Jepang, Korea, dan mendukung skenario lintas bahasa dan campuran bahasa....
$
7.15
/ M UTF-8 bytes

