FunAudioLLM/CosyVoice2-0.5B
Tentang FunAudioLLM/CosyVoice2-0.5B
CosyVoice 2 adalah Model sintesis suara streaming berdasarkan Model bahasa besar, menggunakan desain kerangka kerja streaming/tidak-streaming yang terpadu. Model tersebut meningkatkan pemanfaatan buku kode token suara melalui kuantisasi skalar terbatas (FSQ), menyederhanakan arsitektur Model bahasa Text-to-speech, dan mengembangkan Model pencocokan streaming kausal yang sadar chunk yang mendukung berbagai skenario sintesis. Dalam mode streaming, Model mencapai latensi ultra-rendah 150ms sambil mempertahankan kualitas sintesis yang hampir identik dengan mode non-streaming. Dibandingkan dengan versi 1.0, tingkat kesalahan pengucapan telah berkurang sebesar 30%-50%, skor MOS meningkat dari 5,4 menjadi 5,53, dan kontrol mendetail atas emosi serta dialek didukung. Model ini mendukung Bahasa Mandarin (termasuk dialek: Kanton, dialek Sichuan, bahasa Shanghai, dialek Tianjin, dll.), Bahasa Inggris, Jepang, Korea, dan mendukung skenario lintas bahasa dan campuran bahasa.
Tersedia Serverless
Jalankan kueri segera, bayar hanya untuk penggunaan
$
7.15
Per 1M Bytes UTF-8
Metadata
Spesifikasi
Negara
Available
Arsitektur
Terkalibrasi
Ya
Campuran Ahli
Tidak
Total Parameter
1B
Parameter yang Diaktifkan
0.5B
Penalaran
Tidak
Precision
FP8
Text panjang konteks
0K
Max Tokens
Didukung Keberfungsian
Serverless
didukung
Serverless LoRA
Tidak didukung
Fine-tuning
Tidak didukung
Embeddings
Tidak didukung
Rerankers
Tidak didukung
Dukung Image Input
Tidak didukung
JSON Mode
Tidak didukung
Output Terstruktur
Tidak didukung
Alat
Tidak didukung
Fim Completion
Tidak didukung
Chat Prefix Completion
Tidak didukung
Bandingkan dengan Model Lain
Lihat bagaimana model ini dibandingkan dengan yang lain.

