約FunAudioLLM/CosyVoice2-0.5B
CosyVoice 2は、大規模言語モデルに基づくストリーミング音声合成モデルであり、統一されたストリーミング/非ストリーミングフレームワーク設計を採用しています。このModelは、有限スカラー量子化(FSQ)を通じて音声tokenコードブックの利用を強化し、Text-to-speech言語Modelアーキテクチャを簡素化し、異なる合成シナリオをサポートするチャンク対応の因果的ストリーミングマッチングModelを開発します。ストリーミングモードでは、Modelは150msの超低遅延で、非ストリーミングモードとほぼ同じ合成品質を維持しています。バージョン1.0と比較して、発音エラー率が30%-50%削減され、MOSスコアが5.4から5.53に向上し、感情と方言に対する細かい制御がサポートされています。Modelは、中国語(方言を含む:広東語、四川方言、上海語、天津方言など)、英語、日本語、韓国語をサポートし、クロスリンガルおよび混合言語のシナリオをサポートしています。
利用可能な Serverless
クエリをすぐに実行し、使用量のみを支払います
$
7.15
1M UTF-8 バイトごと
メタデータ
仕様
州
Available
建築
キャリブレートされた
はい
専門家の混合
いいえ
合計パラメータ
1B
アクティブ化されたパラメータ
0.5B
推論
いいえ
Precision
FP8
コンテキスト長
0K
Max Tokens
対応機能
Serverless
対応
Serverless LoRA
サポートされていません
Fine-tuning
サポートされていません
Embeddings
サポートされていません
Rerankers
サポートされていません
Image入力をサポートする
サポートされていません
JSON Mode
サポートされていません
構造化されたOutputs
サポートされていません
ツール
サポートされていません
Fim Completion
サポートされていません
Chat Prefix Completion
サポートされていません
他のModelsと比較
他のモデルに対してこのModelがどのように比較されるかを見てください。

