CosyVoice 2 是一個基於大型語言模型的流式語音合成模型,採用統一的流式/非流式框架設計。模型通過有限標量量化(FSQ)增強了語音token代碼簿的使用,簡化了文本到語音的語言模型結構,並開發了支持不同合成場景的塊感知因果流式匹配模型。在流式模式下,模型實現了150毫秒的超低延遲,同時保持的合成質量幾乎與非流式模式相同。與1.0版相比,發音錯誤率降低了30%-50%,MOS評分從5.4提高到5.53,並支持對情感和方言的細粒度控制。該模型支持中文(包括方言:粵語、四川話、上海話、天津話等)、英語、日語、韓語,並支持跨語言和混合語言場景。...