CosyVoice 2 adalah Model sintesis suara streaming berdasarkan Model bahasa besar, menggunakan desain kerangka kerja streaming/tidak-streaming yang terpadu. Model tersebut meningkatkan pemanfaatan buku kode token suara melalui kuantisasi skalar terbatas (FSQ), menyederhanakan arsitektur Model bahasa Text-to-speech, dan mengembangkan Model pencocokan streaming kausal yang sadar chunk yang mendukung berbagai skenario sintesis. Dalam mode streaming, Model mencapai latensi ultra-rendah 150ms sambil mempertahankan kualitas sintesis yang hampir identik dengan mode non-streaming. Dibandingkan dengan versi 1.0, tingkat kesalahan pengucapan telah berkurang sebesar 30%-50%, skor MOS meningkat dari 5,4 menjadi 5,53, dan kontrol mendetail atas emosi serta dialek didukung. Model ini mendukung Bahasa Mandarin (termasuk dialek: Kanton, dialek Sichuan, bahasa Shanghai, dialek Tianjin, dll.), Bahasa Inggris, Jepang, Korea, dan mendukung skenario lintas bahasa dan campuran bahasa....