정보에 대해서FunAudioLLM/CosyVoice2-0.5B
CosyVoice 2는 대형 언어 모델을 기반으로 한 스트리밍 음성 합성 Model로, 통합된 스트리밍/비스트리밍 프레임워크 설계를 채택하고 있습니다. 이 Model은 유한 스칼라 양자화(FSQ)를 통해 음성 token 코드북의 활용을 강화하고, Text-음성 언어 Model 아키텍처를 단순화하며, 다양한 합성 시나리오를 지원하는 청크 인식 인과적 스트리밍 매칭 Model을 개발합니다. 스트리밍 모드에서는 초저 지연 시간 150ms를 달성하면서 비스트리밍 모드와 거의 동일한 합성 품질을 유지합니다. 버전 1.0과 비교하여 발음 오류율이 30%-50% 감소했고, MOS 점수는 5.4에서 5.53으로 향상되었으며, 감정 및 방언에 대한 세밀한 제어가 지원됩니다. 이 Model은 중국어(방언 포함: 광동어, 사천어, 상하이어, 천진어 등), 영어, 일본어, 한국어를 지원하며, 다국어 및 혼합 언어 시나리오를 지원합니다.
사용 가능한 Serverless
쿼리를 즉시 실행하고 사용한 만큼만 지불하세요.
$
7.15
1M UTF-8 바이트당
메타데이터
사양
주
Available
건축
교정된
네
전문가의 혼합
아니요
총 매개변수
1B
활성화된 매개변수
0.5B
추론
아니요
Precision
FP8
콘텍스트 길이
0K
Max Tokens
지원됨 기능
Serverless
지원됨
Serverless LoRA
지원하지 않음
Fine-tuning
지원하지 않음
Embedding
지원하지 않음
Rerankers
지원하지 않음
지원 Image Input
지원하지 않음
JSON Mode
지원하지 않음
구조화된 Outputs
지원하지 않음
도구
지원하지 않음
Fim Completion
지원하지 않음
Chat Prefix Completion
지원하지 않음
다른 모델과 비교
이 Model이 다른 것들과 어떻게 비교되는지 보세요.

