关于FunAudioLLM/CosyVoice2-0.5B
CosyVoice 2 是一个流式语音合成模型,基于一个大型语言模型,采用统一的流式/非流式框架设计。该模型通过有限标量量化(FSQ)增强了语音token码本的利用,简化了Text到语音语言模型的架构,并开发了一种块感知因果流式匹配模型,支持不同的合成场景。在流式模式下,模型实现了150毫秒的超低延迟,同时维持了与非流式模式几乎相同的合成质量。相比1.0版本,发音错误率降低了30%-50%,MOS分数从5.4提高到5.53,并支持对情感和方言的细粒度控制。该模型支持中文(包括方言:广东话、四川话、上海话、天津话等)、英文、日文、韩文,并支持跨语言和混合语言场景。
可用的 Serverless
立即运行查询,仅按使用量付费
$
7.15
每1M UTF-8 Bytes
元数据
规格
州
Available
建筑
校准的
是
专家混合
不
总参数
1B
激活的参数
0.5B
推理
不
精度
FP8
上下文长度
0K
最大输出长度
支持功能
Serverless
支持
Serverless LoRA
不支持
微调
不支持
Embeddings
不支持
Rerankers
不支持
支持 Image Input
不支持
JSON Mode
不支持
结构化Outputs
不支持
工具
不支持
FIM 补全
不支持
对话前缀补全
不支持

