CosyVoice 2 — это потоковая модель синтеза речи, основанная на крупной языковой модели, использующая унифицированный потоковый/непотоковый дизайн. Модель улучшает использование кодовой книги речевых token через конечное скалярное квантование (FSQ), упрощает архитектуру модели Text-to-speech и разрабатывает потоковую модель с учётом фрагментов, поддерживающую различные сценарии синтеза. В потоковом режиме модель достигает ультра-низкой задержки в 150 мс, при этом качество синтеза практически идентично качеству в непотоковом режиме. По сравнению с версией 1.0, уровень ошибок произношения был снижен на 30%-50%, показатель MOS улучшен с 5.4 до 5.53, и поддерживается тонкое управление эмоциями и диалектами. Модель поддерживает китайский (включая диалекты: кантонский, сычуаньский, шанхайский, тяньцзиньский и др.), английский, японский, корейский и поддерживает межъязыковые и многозыковые сценарии....