State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

All

Featured

LLM

Vision

Image

Video

Audio

Serverless

FunAudioLLM

Text-to-Speech

FunAudioLLM/CosyVoice2-0.5B

Dirilis pada: 16 Des 2024

CosyVoice 2 adalah Model sintesis suara streaming berdasarkan Model bahasa besar, menggunakan desain kerangka kerja streaming/tidak-streaming yang terpadu. Model tersebut meningkatkan pemanfaatan buku kode token suara melalui kuantisasi skalar terbatas (FSQ), menyederhanakan arsitektur Model bahasa Text-to-speech, dan mengembangkan Model pencocokan streaming kausal yang sadar chunk yang mendukung berbagai skenario sintesis. Dalam mode streaming, Model mencapai latensi ultra-rendah 150ms sambil mempertahankan kualitas sintesis yang hampir identik dengan mode non-streaming. Dibandingkan dengan versi 1.0, tingkat kesalahan pengucapan telah berkurang sebesar 30%-50%, skor MOS meningkat dari 5,4 menjadi 5,53, dan kontrol mendetail atas emosi serta dialek didukung. Model ini mendukung Bahasa Mandarin (termasuk dialek: Kanton, dialek Sichuan, bahasa Shanghai, dialek Tianjin, dll.), Bahasa Inggris, Jepang, Korea, dan mendukung skenario lintas bahasa dan campuran bahasa....

7.15

/ M UTF-8 bytes

Input:

text

/ M UTF-8 bytes

Siap untuk mempercepat pengembangan AI Anda?