IndexTTS-2

О IndexTTS-2

IndexTTS2 — это прорывная авто-регрессивная модель текст-в-речь (Text-to-Speech, TTS) с нулевым обучением, разработанная для решения задачи точного управления продолжительностью в крупномасштабных TTS системах, что является значительным ограничением в таких приложениях, как видеодублирование. Она вводит новую общую методику управления продолжительностью речи, поддерживая два режима: один, который явно указывает число генерируемых токенов для точной продолжительности, и другой, который позволяет свободно генерировать речь в авто-регрессивном режиме. Кроме того, IndexTTS2 достигает отделения эмоционального выражения от идентичности диктора, обеспечивая независимое управление тембром и эмоцией через отдельные подсказки. Для повышения ясности речи в условиях высокоэмоциональных выражений модель включает в себя латентные представления GPT и использует новую трехэтапную парадигму обучения. Чтобы снизить порог для управления эмоциями, она также включает механизм мягкой инструкции на основе текстовых описаний, разработанный с помощью Fine-tuning Qwen3, чтобы эффективно направлять генерацию речи с желаемым эмоциональным тоном. Экспериментальные результаты показывают, что IndexTTS2 превосходит лучшие на сегодняшний день модели TTS с нулевым обучением по количеству ошибок в словах, сходству с диктором и эмоциональной точности на различных наборах данных.

Доступный Serverless

Запускайте запросы немедленно, платите только за использование

$

7.15

На 1M UTF-8 Bytes

Метаданные

Создать на

10 сент. 2025 г.

Лицензия

APACHE-2.0

Поставщик

IndexTeam

HuggingFace

Спецификация

Государство

Available

Архитектура

Калибровка

Да

Смешение экспертов

Нет

Общее количество параметров

1B

Активированные параметры

Мышление

Нет

Точность

ФП8

Контекст length

0K

Максимум Tokens

поддерживается функциональность

Безсерверный

поддерживается

Безсерверный LoRA

Не поддерживается

Тонкая настройка

Не поддерживается

Embeddings

Не поддерживается

Rerankers

Не поддерживается

Поддержка Image Input

Не поддерживается

Режим JSON

Не поддерживается

Структурированные Outputs

Не поддерживается

Инструменты

Не поддерживается

Завершение погашения

Не поддерживается

Chat Префикс Заполнение

Не поддерживается

Сравнить с другими Model

Посмотрите, как эта Model сравнивается с другими.

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Russian (Russia)
Russian (Russia)
Russian (Russia)