最先端

AI Model ライブラリ

1つのAPIで200以上の最先端AIモデルでInferenceを実行し、数秒でデプロイ

最先端

AI Model ライブラリ

1つのAPIで200以上の最先端AIモデルでInferenceを実行し、数秒でデプロイ

最先端

AI Model ライブラリ

1つのAPIで200以上の最先端AIモデルでInferenceを実行し、数秒でデプロイ

All

Featured

LLM

Vision

Image

Video

Audio

Serverless

IndexTeam

Text-to-Speech

IndexTTS-2

リリース日：2025/09/10

IndexTTS2は、広範なTTSシステムにおける継続時間制御の挑戦を解決するために設計された画期的な自動回帰型ゼロショットText-to-Speech（TTS）Modelです。これは、ビデオダビングのようなアプリケーションでは重要な制限です。IndexTTS2は、音声の継続時間を制御するための新しい一般的な方法を導入し、正確な継続時間のために生成されるトークンの数を明示的に指定するモードと、自動回帰的に自由に音声を生成するモードをサポートします。さらに、IndexTTS2は感情表現と話者のアイデンティティの分離を達成し、別々のプロンプトを介して声質と感情を独立して制御することを可能にします。高度な感情表現における音声の明瞭性を向上させるために、ModelはGPT潜在表現を組み込み、革新的な3段階のトレーニング方法を利用しています。感情制御の障壁を下げるために、テキストによる説明に基づいたソフトインストラクションメカニズムも備え、微調整Qwen3によって開発され、望ましい感情の音色での音声生成を効果的にガイドします。実験結果では、IndexTTS2が複数のデータセットにおける単語エラー率、話者の類似性、感情的忠実性において、最先端のゼロショットTTSModelを上回っていることが示されています。...

7.15

/ M UTF-8 bytes

Input：

text

/ M UTF-8 bytes

AI開発を加速する準備はできていますか？