IndexTTS-2

IndexTTS-2

IndexTeam/IndexTTS-2

Tentang IndexTTS-2

IndexTTS2 adalah sebuah model Text-to-Speech (TTS) terobosan auto-regressive zero-shot yang dirancang untuk mengatasi tantangan kontrol durasi yang tepat dalam sistem TTS berskala besar, yang merupakan keterbatasan signifikan dalam aplikasi seperti dubbing video. Model ini memperkenalkan metode umum yang baru untuk kontrol durasi ucapan, mendukung dua mode: satu yang secara eksplisit menentukan jumlah token yang dihasilkan untuk durasi yang tepat, dan yang lain yang menghasilkan ucapan secara bebas dalam cara auto-regressive. Selain itu, IndexTTS2 mencapai pemisahan antara ekspresi emosional dan identitas pembicara, memungkinkan kontrol independen atas timbre dan emosi melalui prompt yang terpisah. Untuk meningkatkan kejelasan ucapan dalam ekspresi yang sangat emosional, model ini mengintegrasikan representasi laten GPT dan memanfaatkan paradigma pelatihan tiga tahap yang baru. Untuk menurunkan hambatan kontrol emosional, model ini juga memiliki mekanisme instruksi lembut berdasarkan deskripsi teks, yang dikembangkan dengan cara Fine-tuning Qwen3, untuk secara efektif membimbing generasi ucapan dengan nada emosional yang diinginkan. Hasil eksperimen menunjukkan bahwa IndexTTS2 mengungguli Model TTS zero-shot terkini dalam tingkat kesalahan kata, kesamaan pembicara, dan kesetiaan emosional di berbagai dataset.

Tersedia Serverless

Jalankan kueri segera, bayar hanya untuk penggunaan

$

7.15

Per 1M Bytes UTF-8

Metadata

Buat di

10 Sep 2025

Lisensi

APACHE-2.0

Penyedia

IndexTeam

HuggingFace

Spesifikasi

Negara

Available

Arsitektur

Terkalibrasi

Ya

Campuran Ahli

Tidak

Total Parameter

1B

Parameter yang Diaktifkan

Penalaran

Tidak

Precision

FP8

Text panjang konteks

0K

Max Tokens

Didukung Keberfungsian

Serverless

didukung

Serverless LoRA

Tidak didukung

Fine-tuning

Tidak didukung

Embeddings

Tidak didukung

Rerankers

Tidak didukung

Dukung Image Input

Tidak didukung

JSON Mode

Tidak didukung

Output Terstruktur

Tidak didukung

Alat

Tidak didukung

Fim Completion

Tidak didukung

Chat Prefix Completion

Tidak didukung

Siap untuk mempercepat pengembangan AI Anda?

Siap untuk mempercepat pengembangan AI Anda?

Siap untuk mempercepat pengembangan AI Anda?

Indonesian (Indonesia)

© 2025 SiliconFlow

Indonesian (Indonesia)

© 2025 SiliconFlow

Indonesian (Indonesia)

© 2025 SiliconFlow