FunAudioLLM/CosyVoice2-0.5B
О FunAudioLLM/CosyVoice2-0.5B
CosyVoice 2 — это потоковая модель синтеза речи, основанная на крупной языковой модели, использующая унифицированный потоковый/непотоковый дизайн. Модель улучшает использование кодовой книги речевых token через конечное скалярное квантование (FSQ), упрощает архитектуру модели Text-to-speech и разрабатывает потоковую модель с учётом фрагментов, поддерживающую различные сценарии синтеза. В потоковом режиме модель достигает ультра-низкой задержки в 150 мс, при этом качество синтеза практически идентично качеству в непотоковом режиме. По сравнению с версией 1.0, уровень ошибок произношения был снижен на 30%-50%, показатель MOS улучшен с 5.4 до 5.53, и поддерживается тонкое управление эмоциями и диалектами. Модель поддерживает китайский (включая диалекты: кантонский, сычуаньский, шанхайский, тяньцзиньский и др.), английский, японский, корейский и поддерживает межъязыковые и многозыковые сценарии.
Доступный Serverless
Запускайте запросы немедленно, платите только за использование
$
7.15
На 1M UTF-8 Bytes
Метаданные
Спецификация
Государство
Available
Архитектура
Калибровка
Да
Смешение экспертов
Нет
Общее количество параметров
1B
Активированные параметры
0.5B
Мышление
Нет
Точность
ФП8
Контекст length
0K
Максимум Tokens
поддерживается функциональность
Безсерверный
поддерживается
Безсерверный LoRA
Не поддерживается
Тонкая настройка
Не поддерживается
Embeddings
Не поддерживается
Rerankers
Не поддерживается
Поддержка Image Input
Не поддерживается
Режим JSON
Не поддерживается
Структурированные Outputs
Не поддерживается
Инструменты
Не поддерживается
Завершение погашения
Не поддерживается
Chat Префикс Заполнение
Не поддерживается
Сравнить с другими Model
Посмотрите, как эта Model сравнивается с другими.

