模型

產品

定價

文檔

部落格

關於

聯繫

🎉 Kimi-K3可在 SiliconFlow 上使用。現在就試試看。

🎉 Kimi-K3可在 SiliconFlow 上使用。現在就試試看。

模型

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

API 參考

關於FunAudioLLM/CosyVoice2-0.5B

CosyVoice 2 是一個基於大型語言模型的流式語音合成模型，採用統一的流式/非流式框架設計。模型通過有限標量量化（FSQ）增強了語音token代碼簿的使用，簡化了文本到語音的語言模型結構，並開發了支持不同合成場景的塊感知因果流式匹配模型。在流式模式下，模型實現了150毫秒的超低延遲，同時保持的合成質量幾乎與非流式模式相同。與1.0版相比，發音錯誤率降低了30%-50%，MOS評分從5.4提高到5.53，並支持對情感和方言的細粒度控制。該模型支持中文（包括方言：粵語、四川話、上海話、天津話等）、英語、日語、韓語，並支持跨語言和混合語言場景。

可用的無伺服器

立即運行查詢，僅按使用量付費

每百萬 Tokens（輸入/輸出）

$

7.15

/ M UTF-8 bytes

體驗中心

API 使用

基準

用例

Loading...

元數據

創建於

2024年12月16日

許可證

供應商

FunAudioLLM

HuggingFace

FunAudioLLM/CosyVoice2-0.5B

規格

狀態

Available

架構

LLM-based TTS

經過校準的

是

專家並行

否

總參數

1B

啟用的參數

0.5B

推理

否

精度

FP8

上下文長度

0K

最大輸出長度

支援的功能

無伺服器

支持

無伺服器的 LoRA

不支持

微調

不支持

向量嵌入

不支持

重排序

不支持

支援圖片輸入

不支持

JSON 模式

不支持

結構化輸出

不支持

工具

不支持

中間填充補全

不支持

聊天前綴補全

不支持

與其他模型比較

看看這個模型與其他模型的對比如何。

FunAudioLLM

text-to-speech

FunAudioLLM/CosyVoice2-0.5B

發行日期：2024年12月16日

總上下文：

0K

最大輸出：

輸入：

$

/ M UTF-8 bytes

輸出：

$

/ M UTF-8 bytes

準備好加速您的人工智能開發了嗎？

準備好加速您的人工智能開發了嗎？

準備好加速您的人工智能開發了嗎？

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·