Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

IndexTeam

Text-to-Speech

IndexTTS-2

Выпуск: 10 сент. 2025 г.

IndexTTS2 — это прорывная авто-регрессивная модель текст-в-речь (Text-to-Speech, TTS) с нулевым обучением, разработанная для решения задачи точного управления продолжительностью в крупномасштабных TTS системах, что является значительным ограничением в таких приложениях, как видеодублирование. Она вводит новую общую методику управления продолжительностью речи, поддерживая два режима: один, который явно указывает число генерируемых токенов для точной продолжительности, и другой, который позволяет свободно генерировать речь в авто-регрессивном режиме. Кроме того, IndexTTS2 достигает отделения эмоционального выражения от идентичности диктора, обеспечивая независимое управление тембром и эмоцией через отдельные подсказки. Для повышения ясности речи в условиях высокоэмоциональных выражений модель включает в себя латентные представления GPT и использует новую трехэтапную парадигму обучения. Чтобы снизить порог для управления эмоциями, она также включает механизм мягкой инструкции на основе текстовых описаний, разработанный с помощью Fine-tuning Qwen3, чтобы эффективно направлять генерацию речи с желаемым эмоциональным тоном. Экспериментальные результаты показывают, что IndexTTS2 превосходит лучшие на сегодняшний день модели TTS с нулевым обучением по количеству ошибок в словах, сходству с диктором и эмоциональной точности на различных наборах данных....

$

7.15

/ M UTF-8 bytes

Fish Audio

Text-to-Speech

Fish-Speech-1.5

Выпуск: 29 нояб. 2024 г.

Fish Speech V1.5 — ведущая модель преобразования текста в речь (TTS) с открытым исходным кодом. Model использует инновационную архитектуру DualAR, включающую двухслойный авторегрессивный дизайн трансформера. Она поддерживает несколько языков, с более чем 300,000 часами тренировочных данных для английского и китайского языков, и более 100,000 часов для японского. В независимых оценках TTS Arena Model показала себя исключительно хорошо, с рейтингом ELO 1339. Model достигла уровня ошибки слов (WER) в 3.5% и уровня ошибки символов (CER) в 1.2% для английского языка, и уровня ошибки символов (CER) в 1.3% для китайских символов....

$

15.0

/ M UTF-8 bytes

FunAudioLLM

Text-to-Speech

FunAudioLLM/CosyVoice2-0.5B

Выпуск: 16 дек. 2024 г.

CosyVoice 2 — это потоковая модель синтеза речи, основанная на крупной языковой модели, использующая унифицированный потоковый/непотоковый дизайн. Модель улучшает использование кодовой книги речевых token через конечное скалярное квантование (FSQ), упрощает архитектуру модели Text-to-speech и разрабатывает потоковую модель с учётом фрагментов, поддерживающую различные сценарии синтеза. В потоковом режиме модель достигает ультра-низкой задержки в 150 мс, при этом качество синтеза практически идентично качеству в непотоковом режиме. По сравнению с версией 1.0, уровень ошибок произношения был снижен на 30%-50%, показатель MOS улучшен с 5.4 до 5.53, и поддерживается тонкое управление эмоциями и диалектами. Модель поддерживает китайский (включая диалекты: кантонский, сычуаньский, шанхайский, тяньцзиньский и др.), английский, японский, корейский и поддерживает межъязыковые и многозыковые сценарии....

$

7.15

/ M UTF-8 bytes

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Russian (Russia)
Russian (Russia)
Russian (Russia)