關於FunAudioLLM/CosyVoice2-0.5B
CosyVoice 2 是一個基於大型語言模型的流式語音合成模型,採用統一的流式/非流式框架設計。模型通過有限標量量化(FSQ)增強了語音token代碼簿的使用,簡化了文本到語音的語言模型結構,並開發了支持不同合成場景的塊感知因果流式匹配模型。在流式模式下,模型實現了150毫秒的超低延遲,同時保持的合成質量幾乎與非流式模式相同。與1.0版相比,發音錯誤率降低了30%-50%,MOS評分從5.4提高到5.53,並支持對情感和方言的細粒度控制。該模型支持中文(包括方言:粵語、四川話、上海話、天津話等)、英語、日語、韓語,並支持跨語言和混合語言場景。
可用的無伺服器
立即運行查詢,僅按使用量付費
$
7.15
每百萬個 UTF-8 字節
元數據
規格
狀態
Available
架構
經過校準的
是
專家並行
否
總參數
1B
啟用的參數
0.5B
推理
否
精度
FP8
上下文長度
0K
最大輸出長度
支援的功能
無伺服器
支持
無伺服器的 LoRA
不支持
微調
不支持
向量嵌入
不支持
重排序
不支持
支援圖片輸入
不支持
JSON 模式
不支持
結構化輸出
不支持
工具
不支持
中間填充補全
不支持
聊天前綴補全
不支持

