IndexTTS-2
Tentang IndexTTS-2
IndexTTS2 adalah sebuah model Text-to-Speech (TTS) terobosan auto-regressive zero-shot yang dirancang untuk mengatasi tantangan kontrol durasi yang tepat dalam sistem TTS berskala besar, yang merupakan keterbatasan signifikan dalam aplikasi seperti dubbing video. Model ini memperkenalkan metode umum yang baru untuk kontrol durasi ucapan, mendukung dua mode: satu yang secara eksplisit menentukan jumlah token yang dihasilkan untuk durasi yang tepat, dan yang lain yang menghasilkan ucapan secara bebas dalam cara auto-regressive. Selain itu, IndexTTS2 mencapai pemisahan antara ekspresi emosional dan identitas pembicara, memungkinkan kontrol independen atas timbre dan emosi melalui prompt yang terpisah. Untuk meningkatkan kejelasan ucapan dalam ekspresi yang sangat emosional, model ini mengintegrasikan representasi laten GPT dan memanfaatkan paradigma pelatihan tiga tahap yang baru. Untuk menurunkan hambatan kontrol emosional, model ini juga memiliki mekanisme instruksi lembut berdasarkan deskripsi teks, yang dikembangkan dengan cara Fine-tuning Qwen3, untuk secara efektif membimbing generasi ucapan dengan nada emosional yang diinginkan. Hasil eksperimen menunjukkan bahwa IndexTTS2 mengungguli Model TTS zero-shot terkini dalam tingkat kesalahan kata, kesamaan pembicara, dan kesetiaan emosional di berbagai dataset.
Tersedia Serverless
Jalankan kueri segera, bayar hanya untuk penggunaan
$
7.15
Per 1M Bytes UTF-8
Metadata
Spesifikasi
Negara
Available
Arsitektur
Terkalibrasi
Ya
Campuran Ahli
Tidak
Total Parameter
1B
Parameter yang Diaktifkan
Penalaran
Tidak
Precision
FP8
Text panjang konteks
0K
Max Tokens
Didukung Keberfungsian
Serverless
didukung
Serverless LoRA
Tidak didukung
Fine-tuning
Tidak didukung
Embeddings
Tidak didukung
Rerankers
Tidak didukung
Dukung Image Input
Tidak didukung
JSON Mode
Tidak didukung
Output Terstruktur
Tidak didukung
Alat
Tidak didukung
Fim Completion
Tidak didukung
Chat Prefix Completion
Tidak didukung
Bandingkan dengan Model Lain
Lihat bagaimana model ini dibandingkan dengan yang lain.
