FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

約FunAudioLLM/CosyVoice2-0.5B

CosyVoice 2は、大規模言語モデルに基づくストリーミング音声合成モデルであり、統一されたストリーミング/非ストリーミングフレームワーク設計を採用しています。このModelは、有限スカラー量子化(FSQ)を通じて音声tokenコードブックの利用を強化し、Text-to-speech言語Modelアーキテクチャを簡素化し、異なる合成シナリオをサポートするチャンク対応の因果的ストリーミングマッチングModelを開発します。ストリーミングモードでは、Modelは150msの超低遅延で、非ストリーミングモードとほぼ同じ合成品質を維持しています。バージョン1.0と比較して、発音エラー率が30%-50%削減され、MOSスコアが5.4から5.53に向上し、感情と方言に対する細かい制御がサポートされています。Modelは、中国語(方言を含む:広東語、四川方言、上海語、天津方言など)、英語、日本語、韓国語をサポートし、クロスリンガルおよび混合言語のシナリオをサポートしています。

利用可能な Serverless

クエリをすぐに実行し、使用量のみを支払います

$

7.15

1M UTF-8 バイトごと

メタデータ

作成する

2024/12/16

ライセンス

プロバイダー

FunAudioLLM

ハギングフェイス

仕様

Available

建築

キャリブレートされた

はい

専門家の混合

いいえ

合計パラメータ

1B

アクティブ化されたパラメータ

0.5B

推論

いいえ

Precision

FP8

コンテキスト長

0K

Max Tokens

対応機能

Serverless

対応

Serverless LoRA

サポートされていません

Fine-tuning

サポートされていません

Embeddings

サポートされていません

Rerankers

サポートされていません

Image入力をサポートする

サポートされていません

JSON Mode

サポートされていません

構造化されたOutputs

サポートされていません

ツール

サポートされていません

Fim Completion

サポートされていません

Chat Prefix Completion

サポートされていません

他のModelsと比較

他のモデルに対してこのModelがどのように比較されるかを見てください。

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow