모델

제품

가격

문서

블로그

에 대하여

연락하다

🎉 gemma-4-12B-it 는 SiliconFlow에서 가능합니다. 지금 시도해 보세요.

🎉 gemma-4-12B-it 는 SiliconFlow에서 가능합니다. 지금 시도해 보세요.

모델

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

API 참조

정보에 대해서FunAudioLLM/CosyVoice2-0.5B

CosyVoice 2는 대형 언어 모델을 기반으로 한 스트리밍 음성 합성 Model로, 통합된 스트리밍/비스트리밍 프레임워크 설계를 채택하고 있습니다. 이 Model은 유한 스칼라 양자화(FSQ)를 통해 음성 token 코드북의 활용을 강화하고, Text-음성 언어 Model 아키텍처를 단순화하며, 다양한 합성 시나리오를 지원하는 청크 인식 인과적 스트리밍 매칭 Model을 개발합니다. 스트리밍 모드에서는 초저 지연 시간 150ms를 달성하면서 비스트리밍 모드와 거의 동일한 합성 품질을 유지합니다. 버전 1.0과 비교하여 발음 오류율이 30%-50% 감소했고, MOS 점수는 5.4에서 5.53으로 향상되었으며, 감정 및 방언에 대한 세밀한 제어가 지원됩니다. 이 Model은 중국어(방언 포함: 광동어, 사천어, 상하이어, 천진어 등), 영어, 일본어, 한국어를 지원하며, 다국어 및 혼합 언어 시나리오를 지원합니다.

사용 가능한 Serverless

쿼리를 즉시 실행하고 사용한 만큼만 지불하세요.

1M 토큰당 (Input/Output)

$

7.15

/ M UTF-8 bytes

Playground

API 사용

벤치마크

사용 사례

Loading...

메타데이터

생성하다

2024. 12. 16.

라이센스

공급자

FunAudioLLM

허깅페이스

FunAudioLLM/CosyVoice2-0.5B

사양

주

Available

건축

LLM-based TTS

교정된

네

전문가의 혼합

아니요

총 매개변수

1B

활성화된 매개변수

0.5B

추론

아니요

Precision

FP8

콘텍스트 길이

0K

Max Tokens

지원됨 기능

Serverless

지원됨

Serverless LoRA

지원하지 않음

Fine-tuning

지원하지 않음

Embedding

지원하지 않음

Rerankers

지원하지 않음

지원 Image Input

지원하지 않음

JSON Mode

지원하지 않음

구조화된 Outputs

지원하지 않음

도구

지원하지 않음

Fim Completion

지원하지 않음

Chat Prefix Completion

지원하지 않음

다른 모델과 비교

이 Model이 다른 것들과 어떻게 비교되는지 보세요.

FunAudioLLM

text-to-speech

FunAudioLLM/CosyVoice2-0.5B

출시일: 2024. 12. 16.

Total Context:

0K

Max output:

Input:

$

/ M UTF-8 bytes

Output:

$

/ M UTF-8 bytes

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

페이지

모델

제품

© 2025 SiliconFlow

·

개인정보 보호

페이지

모델

제품

© 2025 SiliconFlow

·

개인정보 보호

페이지

모델

제품

© 2025 SiliconFlow

·

개인정보 보호