約IndexTTS-2
IndexTTS2は、広範なTTSシステムにおける継続時間制御の挑戦を解決するために設計された画期的な自動回帰型ゼロショットText-to-Speech(TTS)Modelです。これは、ビデオダビングのようなアプリケーションでは重要な制限です。IndexTTS2は、音声の継続時間を制御するための新しい一般的な方法を導入し、正確な継続時間のために生成されるトークンの数を明示的に指定するモードと、自動回帰的に自由に音声を生成するモードをサポートします。さらに、IndexTTS2は感情表現と話者のアイデンティティの分離を達成し、別々のプロンプトを介して声質と感情を独立して制御することを可能にします。高度な感情表現における音声の明瞭性を向上させるために、ModelはGPT潜在表現を組み込み、革新的な3段階のトレーニング方法を利用しています。感情制御の障壁を下げるために、テキストによる説明に基づいたソフトインストラクションメカニズムも備え、微調整Qwen3によって開発され、望ましい感情の音色での音声生成を効果的にガイドします。実験結果では、IndexTTS2が複数のデータセットにおける単語エラー率、話者の類似性、感情的忠実性において、最先端のゼロショットTTSModelを上回っていることが示されています。
利用可能な Serverless
クエリをすぐに実行し、使用量のみを支払います
$
7.15
1M UTF-8 バイトごと
メタデータ
仕様
州
Available
建築
キャリブレートされた
はい
専門家の混合
いいえ
合計パラメータ
1B
アクティブ化されたパラメータ
推論
いいえ
Precision
FP8
コンテキスト長
0K
Max Tokens
対応機能
Serverless
対応
Serverless LoRA
サポートされていません
Fine-tuning
サポートされていません
Embeddings
サポートされていません
Rerankers
サポートされていません
Image入力をサポートする
サポートされていません
JSON Mode
サポートされていません
構造化されたOutputs
サポートされていません
ツール
サポートされていません
Fim Completion
サポートされていません
Chat Prefix Completion
サポートされていません
他のModelsと比較
他のモデルに対してこのModelがどのように比較されるかを見てください。
