FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

정보에 대해서FunAudioLLM/CosyVoice2-0.5B

CosyVoice 2는 대형 언어 모델을 기반으로 한 스트리밍 음성 합성 Model로, 통합된 스트리밍/비스트리밍 프레임워크 설계를 채택하고 있습니다. 이 Model은 유한 스칼라 양자화(FSQ)를 통해 음성 token 코드북의 활용을 강화하고, Text-음성 언어 Model 아키텍처를 단순화하며, 다양한 합성 시나리오를 지원하는 청크 인식 인과적 스트리밍 매칭 Model을 개발합니다. 스트리밍 모드에서는 초저 지연 시간 150ms를 달성하면서 비스트리밍 모드와 거의 동일한 합성 품질을 유지합니다. 버전 1.0과 비교하여 발음 오류율이 30%-50% 감소했고, MOS 점수는 5.4에서 5.53으로 향상되었으며, 감정 및 방언에 대한 세밀한 제어가 지원됩니다. 이 Model은 중국어(방언 포함: 광동어, 사천어, 상하이어, 천진어 등), 영어, 일본어, 한국어를 지원하며, 다국어 및 혼합 언어 시나리오를 지원합니다.

사용 가능한 Serverless

쿼리를 즉시 실행하고 사용한 만큼만 지불하세요.

$

7.15

1M UTF-8 바이트당

메타데이터

생성하다

2024. 12. 16.

라이센스

공급자

FunAudioLLM

사양

Available

건축

교정된

전문가의 혼합

아니요

총 매개변수

1B

활성화된 매개변수

0.5B

추론

아니요

Precision

FP8

콘텍스트 길이

0K

Max Tokens

지원됨 기능

Serverless

지원됨

Serverless LoRA

지원하지 않음

Fine-tuning

지원하지 않음

Embedding

지원하지 않음

Rerankers

지원하지 않음

지원 Image Input

지원하지 않음

JSON Mode

지원하지 않음

구조화된 Outputs

지원하지 않음

도구

지원하지 않음

Fim Completion

지원하지 않음

Chat Prefix Completion

지원하지 않음

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow