IndexTTS-2
О IndexTTS-2
IndexTTS2 — это прорывная авто-регрессивная модель текст-в-речь (Text-to-Speech, TTS) с нулевым обучением, разработанная для решения задачи точного управления продолжительностью в крупномасштабных TTS системах, что является значительным ограничением в таких приложениях, как видеодублирование. Она вводит новую общую методику управления продолжительностью речи, поддерживая два режима: один, который явно указывает число генерируемых токенов для точной продолжительности, и другой, который позволяет свободно генерировать речь в авто-регрессивном режиме. Кроме того, IndexTTS2 достигает отделения эмоционального выражения от идентичности диктора, обеспечивая независимое управление тембром и эмоцией через отдельные подсказки. Для повышения ясности речи в условиях высокоэмоциональных выражений модель включает в себя латентные представления GPT и использует новую трехэтапную парадигму обучения. Чтобы снизить порог для управления эмоциями, она также включает механизм мягкой инструкции на основе текстовых описаний, разработанный с помощью Fine-tuning Qwen3, чтобы эффективно направлять генерацию речи с желаемым эмоциональным тоном. Экспериментальные результаты показывают, что IndexTTS2 превосходит лучшие на сегодняшний день модели TTS с нулевым обучением по количеству ошибок в словах, сходству с диктором и эмоциональной точности на различных наборах данных.
Доступный Serverless
Запускайте запросы немедленно, платите только за использование
$
7.15
На 1M UTF-8 Bytes
Метаданные
Спецификация
Государство
Available
Архитектура
Калибровка
Да
Смешение экспертов
Нет
Общее количество параметров
1B
Активированные параметры
Мышление
Нет
Точность
ФП8
Контекст length
0K
Максимум Tokens
поддерживается функциональность
Безсерверный
поддерживается
Безсерверный LoRA
Не поддерживается
Тонкая настройка
Не поддерживается
Embeddings
Не поддерживается
Rerankers
Не поддерживается
Поддержка Image Input
Не поддерживается
Режим JSON
Не поддерживается
Структурированные Outputs
Не поддерживается
Инструменты
Не поддерживается
Завершение погашения
Не поддерживается
Chat Префикс Заполнение
Не поддерживается
Сравнить с другими Model
Посмотрите, как эта Model сравнивается с другими.
