FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

約FunAudioLLM/CosyVoice2-0.5B

CosyVoice 2は、大規模言語モデルに基づくストリーミング音声合成モデルであり、統一されたストリーミング/非ストリーミングフレームワーク設計を採用しています。このModelは、有限スカラー量子化(FSQ)を通じて音声tokenコードブックの利用を強化し、Text-to-speech言語Modelアーキテクチャを簡素化し、異なる合成シナリオをサポートするチャンク対応の因果的ストリーミングマッチングModelを開発します。ストリーミングモードでは、Modelは150msの超低遅延で、非ストリーミングモードとほぼ同じ合成品質を維持しています。バージョン1.0と比較して、発音エラー率が30%-50%削減され、MOSスコアが5.4から5.53に向上し、感情と方言に対する細かい制御がサポートされています。Modelは、中国語(方言を含む:広東語、四川方言、上海語、天津方言など)、英語、日本語、韓国語をサポートし、クロスリンガルおよび混合言語のシナリオをサポートしています。

利用可能な Serverless

クエリをすぐに実行し、使用量のみを支払います

100万トークン(Input/Output)ごとに

$

7.15

/ M UTF-8 bytes

メタデータ

作成する

ライセンス

プロバイダー

FunAudioLLM

ハギングフェイス

仕様

Available

建築

LLM-based TTS

キャリブレートされた

はい

専門家の混合

いいえ

合計パラメータ

1B

アクティブ化されたパラメータ

0.5B

推論

いいえ

Precision

FP8

コンテキスト長

0K

Max Tokens

対応機能

Serverless

対応

Serverless LoRA

サポートされていません

Fine-tuning

サポートされていません

Embeddings

サポートされていません

Rerankers

サポートされていません

Image入力をサポートする

サポートされていません

JSON Mode

サポートされていません

構造化されたOutputs

サポートされていません

ツール

サポートされていません

Fim Completion

サポートされていません

Chat Prefix Completion

サポートされていません

他のModelsと比較

他のモデルに対してこのModelがどのように比較されるかを見てください。

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?