IndexTTS2 — это прорывная авто-регрессивная модель текст-в-речь (Text-to-Speech, TTS) с нулевым обучением, разработанная для решения задачи точного управления продолжительностью в крупномасштабных TTS системах, что является значительным ограничением в таких приложениях, как видеодублирование. Она вводит новую общую методику управления продолжительностью речи, поддерживая два режима: один, который явно указывает число генерируемых токенов для точной продолжительности, и другой, который позволяет свободно генерировать речь в авто-регрессивном режиме. Кроме того, IndexTTS2 достигает отделения эмоционального выражения от идентичности диктора, обеспечивая независимое управление тембром и эмоцией через отдельные подсказки. Для повышения ясности речи в условиях высокоэмоциональных выражений модель включает в себя латентные представления GPT и использует новую трехэтапную парадигму обучения. Чтобы снизить порог для управления эмоциями, она также включает механизм мягкой инструкции на основе текстовых описаний, разработанный с помощью Fine-tuning Qwen3, чтобы эффективно направлять генерацию речи с желаемым эмоциональным тоном. Экспериментальные результаты показывают, что IndexTTS2 превосходит лучшие на сегодняшний день модели TTS с нулевым обучением по количеству ошибок в словах, сходству с диктором и эмоциональной точности на различных наборах данных....