모델

제품

가격

문서

블로그

에 대하여

연락하다

🎉 gemma-4-12B-it 는 SiliconFlow에서 가능합니다. 지금 시도해 보세요.

🎉 gemma-4-12B-it 는 SiliconFlow에서 가능합니다. 지금 시도해 보세요.

모델

IndexTTS-2

IndexTTS-2

IndexTeam/IndexTTS-2

API 참조

정보에 대해서IndexTTS-2

IndexTTS2는 대규모 TTS 시스템에서 비디오 더빙과 같은 애플리케이션의 중요한 제한 사항인 정확한 지속 시간 제어 문제를 해결하기 위해 설계된 획기적인 자동 회귀 제로샷 Text-to-Speech (TTS) 모델입니다. 이 모델은 음성 지속 시간 제어를 위한 새로운 일반적인 방법을 도입하여 두 가지 모드를 지원합니다: 하나는 생성된 tokens의 수를 명시적으로 지정하여 정확한 지속 시간을 제공하고, 다른 하나는 자동 회귀 방식으로 자유롭게 음성을 생성합니다. 더욱이, IndexTTS2는 감정 표현과 화자 정체성 사이의 구별을 달성하여 개별 프롬프트를 통해 음색과 감정을 독립적으로 제어할 수 있도록 합니다. 감정이 풍부한 표현에서 음성의 명확성을 향상시키기 위해, 이 모델은 GPT 잠재 표현을 활용하고 혁신적인 3단계 훈련 패러다임을 사용합니다. 감정 제어의 장벽을 낮추기 위해 텍스트 설명을 기반으로 한 부드러운 명령 메커니즘을 특징으로 하여 원하는 감정적 톤으로 음성 생성 효과적으로 안내하기 위해 Qwen3를 Fine-tuning하여 개발되었습니다. 실험 결과 IndexTTS2는 여러 데이터셋에서 단어 오류율, 화자 유사성, 감정 충실도에서 최첨단 제로샷 TTS 모델을 능가하는 성능을 보여줍니다.

사용 가능한 Serverless

쿼리를 즉시 실행하고 사용한 만큼만 지불하세요.

1M 토큰당 (Input/Output)

$

7.15

/ M UTF-8 bytes

Playground

API 사용

벤치마크

사용 사례

Loading...

메타데이터

생성하다

2025. 9. 10.

라이센스

APACHE-2.0

공급자

IndexTeam

허깅페이스

사양

주

Available

건축

Auto-regressive TTS

교정된

네

전문가의 혼합

아니요

총 매개변수

1B

활성화된 매개변수

1B

추론

아니요

Precision

FP8

콘텍스트 길이

0K

Max Tokens

지원됨 기능

Serverless

지원됨

Serverless LoRA

지원하지 않음

Fine-tuning

지원하지 않음

Embedding

지원하지 않음

Rerankers

지원하지 않음

지원 Image Input

지원하지 않음

JSON Mode

지원하지 않음

구조화된 Outputs

지원하지 않음

도구

지원하지 않음

Fim Completion

지원하지 않음

Chat Prefix Completion

지원하지 않음

다른 모델과 비교

이 Model이 다른 것들과 어떻게 비교되는지 보세요.

IndexTeam

text-to-speech

IndexTTS-2

출시일: 2025. 9. 10.

Total Context:

0K

Max output:

Input:

$

/ M UTF-8 bytes

Output:

$

/ M UTF-8 bytes

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

페이지

모델

제품

© 2025 SiliconFlow

·

개인정보 보호

페이지

모델

제품

© 2025 SiliconFlow

·

개인정보 보호

페이지

모델

제품

© 2025 SiliconFlow

·

개인정보 보호