モデル

製品

価格

ドキュメント

ブログ

約

連絡

🎉 gemma-4-12B-itはSiliconFlowで利用可能です。今すぐお試しください。

🎉 gemma-4-12B-itはSiliconFlowで利用可能です。今すぐお試しください。

モデル

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

APIリファレンス

約FunAudioLLM/CosyVoice2-0.5B

CosyVoice 2は、大規模言語モデルに基づくストリーミング音声合成モデルであり、統一されたストリーミング/非ストリーミングフレームワーク設計を採用しています。このModelは、有限スカラー量子化（FSQ）を通じて音声tokenコードブックの利用を強化し、Text-to-speech言語Modelアーキテクチャを簡素化し、異なる合成シナリオをサポートするチャンク対応の因果的ストリーミングマッチングModelを開発します。ストリーミングモードでは、Modelは150msの超低遅延で、非ストリーミングモードとほぼ同じ合成品質を維持しています。バージョン1.0と比較して、発音エラー率が30%-50%削減され、MOSスコアが5.4から5.53に向上し、感情と方言に対する細かい制御がサポートされています。Modelは、中国語（方言を含む：広東語、四川方言、上海語、天津方言など）、英語、日本語、韓国語をサポートし、クロスリンガルおよび混合言語のシナリオをサポートしています。

利用可能な Serverless

クエリをすぐに実行し、使用量のみを支払います

100万トークン（Input/Output）ごとに

$

7.15

/ M UTF-8 bytes

Playground

APIの使用

ベンチマーク

ユースケース

Loading...

メタデータ

作成する

2024/12/16

ライセンス

プロバイダー

FunAudioLLM

ハギングフェイス

FunAudioLLM/CosyVoice2-0.5B

仕様

州

Available

建築

LLM-based TTS

キャリブレートされた

はい

専門家の混合

いいえ

合計パラメータ

1B

アクティブ化されたパラメータ

0.5B

推論

いいえ

Precision

FP8

コンテキスト長

0K

Max Tokens

対応機能

Serverless

対応

Serverless LoRA

サポートされていません

Fine-tuning

サポートされていません

Embeddings

サポートされていません

Rerankers

サポートされていません

Image入力をサポートする

サポートされていません

JSON Mode

サポートされていません

構造化されたOutputs

サポートされていません

ツール

サポートされていません

Fim Completion

サポートされていません

Chat Prefix Completion

サポートされていません

他のModelsと比較

他のモデルに対してこのModelがどのように比較されるかを見てください。

FunAudioLLM

text-to-speech

FunAudioLLM/CosyVoice2-0.5B

リリース日：2024/12/16

Total Context:

0K

Max output:

Input：

$

/ M UTF-8 bytes

Output:

$

/ M UTF-8 bytes

AI開発を加速する準備はできていますか？

AI開発を加速する準備はできていますか？

AI開発を加速する準備はできていますか？

ページ

ドキュメント

モデル

製品

予約されたGPU

© 2025 SiliconFlow

·

プライバシー

ページ

ドキュメント

モデル

製品

予約されたGPU

© 2025 SiliconFlow

·

プライバシー

ページ

ドキュメント

モデル

製品

予約されたGPU

© 2025 SiliconFlow

·

プライバシー