🎉 gemma-4-12B-it 는 SiliconFlow에서 가능합니다. 지금 시도해 보세요.

모델

제품

가격

문서

블로그

에 대하여

연락하다

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

All

Featured

LLM

Vision

Image

Video

Audio

Text-to-Speech

제공자

IndexTeam

Text-to-Speech

IndexTTS-2

출시일: 2025. 9. 10.

IndexTTS2는 대규모 TTS 시스템에서 비디오 더빙과 같은 애플리케이션의 중요한 제한 사항인 정확한 지속 시간 제어 문제를 해결하기 위해 설계된 획기적인 자동 회귀 제로샷 Text-to-Speech (TTS) 모델입니다. 이 모델은 음성 지속 시간 제어를 위한 새로운 일반적인 방법을 도입하여 두 가지 모드를 지원합니다: 하나는 생성된 tokens의 수를 명시적으로 지정하여 정확한 지속 시간을 제공하고, 다른 하나는 자동 회귀 방식으로 자유롭게 음성을 생성합니다. 더욱이, IndexTTS2는 감정 표현과 화자 정체성 사이의 구별을 달성하여 개별 프롬프트를 통해 음색과 감정을 독립적으로 제어할 수 있도록 합니다. 감정이 풍부한 표현에서 음성의 명확성을 향상시키기 위해, 이 모델은 GPT 잠재 표현을 활용하고 혁신적인 3단계 훈련 패러다임을 사용합니다. 감정 제어의 장벽을 낮추기 위해 텍스트 설명을 기반으로 한 부드러운 명령 메커니즘을 특징으로 하여 원하는 감정적 톤으로 음성 생성 효과적으로 안내하기 위해 Qwen3를 Fine-tuning하여 개발되었습니다. 실험 결과 IndexTTS2는 여러 데이터셋에서 단어 오류율, 화자 유사성, 감정 충실도에서 최첨단 제로샷 TTS 모델을 능가하는 성능을 보여줍니다....

7.15

/ M UTF-8 bytes

Input:

text

/ M UTF-8 bytes

Fish Audio

Text-to-Speech

Fish-Speech-1.5

출시일: 2024. 11. 29.

Fish Speech V1.5는 선도적인 오픈 소스 Text-to-Speech (TTS) Model입니다. 이 Model은 혁신적인 DualAR 아키텍처를 사용하여 이중 자회귀 변환기 디자인을 특징으로 합니다. 여러 언어를 지원하며, 영어와 중국어에 대해 300,000시간 이상의 훈련 데이터를 제공하고, 일본어에 대해서는 100,000시간 이상의 데이터를 제공합니다. TTS Arena에서의 독립적인 평가에서 이 Model은 1339의 ELO 점수로 뛰어난 성과를 보였습니다. 이 Model은 영어에 대해 3.5%의 단어 오류율(WER)과 1.2%의 문자 오류율(CER)을 달성하였고, 중국어 문자에 대해서는 1.3%의 CER을 기록하였습니다....

15.0

/ M UTF-8 bytes

Input:

text

/ M UTF-8 bytes

FunAudioLLM

Text-to-Speech

FunAudioLLM/CosyVoice2-0.5B

출시일: 2024. 12. 16.

CosyVoice 2는 대형 언어 모델을 기반으로 한 스트리밍 음성 합성 Model로, 통합된 스트리밍/비스트리밍 프레임워크 설계를 채택하고 있습니다. 이 Model은 유한 스칼라 양자화(FSQ)를 통해 음성 token 코드북의 활용을 강화하고, Text-음성 언어 Model 아키텍처를 단순화하며, 다양한 합성 시나리오를 지원하는 청크 인식 인과적 스트리밍 매칭 Model을 개발합니다. 스트리밍 모드에서는 초저 지연 시간 150ms를 달성하면서 비스트리밍 모드와 거의 동일한 합성 품질을 유지합니다. 버전 1.0과 비교하여 발음 오류율이 30%-50% 감소했고, MOS 점수는 5.4에서 5.53으로 향상되었으며, 감정 및 방언에 대한 세밀한 제어가 지원됩니다. 이 Model은 중국어(방언 포함: 광동어, 사천어, 상하이어, 천진어 등), 영어, 일본어, 한국어를 지원하며, 다국어 및 혼합 언어 시나리오를 지원합니다....

7.15

/ M UTF-8 bytes

Input:

text

/ M UTF-8 bytes

AI 개발을 가속화할 준비가 되셨나요?