정보에 대해서IndexTTS-2
IndexTTS2는 대규모 TTS 시스템에서 비디오 더빙과 같은 애플리케이션의 중요한 제한 사항인 정확한 지속 시간 제어 문제를 해결하기 위해 설계된 획기적인 자동 회귀 제로샷 Text-to-Speech (TTS) 모델입니다. 이 모델은 음성 지속 시간 제어를 위한 새로운 일반적인 방법을 도입하여 두 가지 모드를 지원합니다: 하나는 생성된 tokens의 수를 명시적으로 지정하여 정확한 지속 시간을 제공하고, 다른 하나는 자동 회귀 방식으로 자유롭게 음성을 생성합니다. 더욱이, IndexTTS2는 감정 표현과 화자 정체성 사이의 구별을 달성하여 개별 프롬프트를 통해 음색과 감정을 독립적으로 제어할 수 있도록 합니다. 감정이 풍부한 표현에서 음성의 명확성을 향상시키기 위해, 이 모델은 GPT 잠재 표현을 활용하고 혁신적인 3단계 훈련 패러다임을 사용합니다. 감정 제어의 장벽을 낮추기 위해 텍스트 설명을 기반으로 한 부드러운 명령 메커니즘을 특징으로 하여 원하는 감정적 톤으로 음성 생성 효과적으로 안내하기 위해 Qwen3를 Fine-tuning하여 개발되었습니다. 실험 결과 IndexTTS2는 여러 데이터셋에서 단어 오류율, 화자 유사성, 감정 충실도에서 최첨단 제로샷 TTS 모델을 능가하는 성능을 보여줍니다.
사용 가능한 Serverless
쿼리를 즉시 실행하고 사용한 만큼만 지불하세요.
$
7.15
1M UTF-8 바이트당
메타데이터
사양
주
Available
건축
교정된
네
전문가의 혼합
아니요
총 매개변수
1B
활성화된 매개변수
추론
아니요
Precision
FP8
콘텍스트 길이
0K
Max Tokens
지원됨 기능
Serverless
지원됨
Serverless LoRA
지원하지 않음
Fine-tuning
지원하지 않음
Embedding
지원하지 않음
Rerankers
지원하지 않음
지원 Image Input
지원하지 않음
JSON Mode
지원하지 않음
구조화된 Outputs
지원하지 않음
도구
지원하지 않음
Fim Completion
지원하지 않음
Chat Prefix Completion
지원하지 않음
다른 모델과 비교
이 Model이 다른 것들과 어떻게 비교되는지 보세요.
