关于Fish-Speech-1.5
Fish Speech V1.5 是一个领先的开源文本到语音(TTS)模型。该模型采用创新的 DualAR 架构,具有双自回归 transformer 设计。它支持多种语言,英语和中文的训练数据超过 300,000 小时,日语超过 100,000 小时。在 TTS Arena 的独立评估中,该模型表现非常出色,ELO 得分为 1339。该模型在英语单词错误率(WER)为 3.5% 和字符错误率(CER)为 1.2%,中文字符错误率(CER)为 1.3% 的评估中表现优异。
可用的 Serverless
立即运行查询,仅按使用量付费
$
15
每1M UTF-8 Bytes
元数据
规格
州
Available
建筑
校准的
不
专家混合
不
总参数
激活的参数
推理
不
精度
FP8
上下文长度
0K
最大输出长度
支持功能
Serverless
支持
Serverless LoRA
不支持
微调
不支持
Embeddings
不支持
Rerankers
不支持
支持 Image Input
不支持
JSON Mode
不支持
结构化Outputs
不支持
工具
不支持
FIM 补全
不支持
对话前缀补全
不支持
