關於Fish-Speech-1.5
Fish Speech V1.5 是一個領先的開源語音合成(TTS)模型。該模型採用了創新的 DualAR 架構,具有雙自回歸變壓器設計。它支持多種語言,包括英語和中文的訓練數據超過 300,000 小時,以及日語的訓練數據超過 100,000 小時。 在 TTS Arena 獨立評估中,該模型表現非常出色,ELO 得分為 1339。該模型在英語的詞語錯誤率(WER)為 3.5%,字符錯誤率(CER)為 1.2%,以及中文字的字符錯誤率(CER)為 1.3%。
可用的無伺服器
立即運行查詢,僅按使用量付費
$
15.0
每百萬個 UTF-8 字節
元數據
規格
狀態
Available
架構
DualAR architecture
經過校準的
否
專家並行
否
總參數
啟用的參數
推理
否
精度
FP8
上下文長度
0K
最大輸出長度
支援的功能
無伺服器
支持
無伺服器的 LoRA
不支持
微調
不支持
向量嵌入
不支持
重排序
不支持
支援圖片輸入
不支持
JSON 模式
不支持
結構化輸出
不支持
工具
不支持
中間填充補全
不支持
聊天前綴補全
不支持
