IndexTTS2 adalah sebuah model Text-to-Speech (TTS) terobosan auto-regressive zero-shot yang dirancang untuk mengatasi tantangan kontrol durasi yang tepat dalam sistem TTS berskala besar, yang merupakan keterbatasan signifikan dalam aplikasi seperti dubbing video. Model ini memperkenalkan metode umum yang baru untuk kontrol durasi ucapan, mendukung dua mode: satu yang secara eksplisit menentukan jumlah token yang dihasilkan untuk durasi yang tepat, dan yang lain yang menghasilkan ucapan secara bebas dalam cara auto-regressive. Selain itu, IndexTTS2 mencapai pemisahan antara ekspresi emosional dan identitas pembicara, memungkinkan kontrol independen atas timbre dan emosi melalui prompt yang terpisah. Untuk meningkatkan kejelasan ucapan dalam ekspresi yang sangat emosional, model ini mengintegrasikan representasi laten GPT dan memanfaatkan paradigma pelatihan tiga tahap yang baru. Untuk menurunkan hambatan kontrol emosional, model ini juga memiliki mekanisme instruksi lembut berdasarkan deskripsi teks, yang dikembangkan dengan cara Fine-tuning Qwen3, untuk secara efektif membimbing generasi ucapan dengan nada emosional yang diinginkan. Hasil eksperimen menunjukkan bahwa IndexTTS2 mengungguli Model TTS zero-shot terkini dalam tingkat kesalahan kata, kesamaan pembicara, dan kesetiaan emosional di berbagai dataset....