IndexTeam
Text-to-Speech
IndexTTS-2
リリース日:2025/09/10
IndexTTS2は、広範なTTSシステムにおける継続時間制御の挑戦を解決するために設計された画期的な自動回帰型ゼロショットText-to-Speech(TTS)Modelです。これは、ビデオダビングのようなアプリケーションでは重要な制限です。IndexTTS2は、音声の継続時間を制御するための新しい一般的な方法を導入し、正確な継続時間のために生成されるトークンの数を明示的に指定するモードと、自動回帰的に自由に音声を生成するモードをサポートします。さらに、IndexTTS2は感情表現と話者のアイデンティティの分離を達成し、別々のプロンプトを介して声質と感情を独立して制御することを可能にします。高度な感情表現における音声の明瞭性を向上させるために、ModelはGPT潜在表現を組み込み、革新的な3段階のトレーニング方法を利用しています。感情制御の障壁を下げるために、テキストによる説明に基づいたソフトインストラクションメカニズムも備え、微調整Qwen3によって開発され、望ましい感情の音色での音声生成を効果的にガイドします。実験結果では、IndexTTS2が複数のデータセットにおける単語エラー率、話者の類似性、感情的忠実性において、最先端のゼロショットTTSModelを上回っていることが示されています。...
$
7.15
/ M UTF-8 bytes
Fish Audio
Text-to-Speech
Fish-Speech-1.5
リリース日:2024/11/29
Fish Speech V1.5 は、オープンソースのテキストトゥスピーチ (TTS) Model の中で最も先進的なものです。このModelは革新的なDualARアーキテクチャを採用しており、二重自己回帰型トランスフォーマーデザインを特徴としています。複数の言語をサポートしており、英語と中国語には30万時間以上、日本語には10万時間以上のトレーニングデータを提供しています。TTS Arenaによる独立評価では、Modelは非常に優れた性能を発揮し、ELOスコアは1339を獲得しました。英語においては単語誤り率 (WER) が 3.5%、文字誤り率 (CER) が 1.2% を達成し、中国語の文字においては 1.3% のCERを達成しました。...
$
15.0
/ M UTF-8 bytes

FunAudioLLM
Text-to-Speech
FunAudioLLM/CosyVoice2-0.5B
リリース日:2024/12/16
CosyVoice 2は、大規模言語モデルに基づくストリーミング音声合成モデルであり、統一されたストリーミング/非ストリーミングフレームワーク設計を採用しています。このModelは、有限スカラー量子化(FSQ)を通じて音声tokenコードブックの利用を強化し、Text-to-speech言語Modelアーキテクチャを簡素化し、異なる合成シナリオをサポートするチャンク対応の因果的ストリーミングマッチングModelを開発します。ストリーミングモードでは、Modelは150msの超低遅延で、非ストリーミングモードとほぼ同じ合成品質を維持しています。バージョン1.0と比較して、発音エラー率が30%-50%削減され、MOSスコアが5.4から5.53に向上し、感情と方言に対する細かい制御がサポートされています。Modelは、中国語(方言を含む:広東語、四川方言、上海語、天津方言など)、英語、日本語、韓国語をサポートし、クロスリンガルおよび混合言語のシナリオをサポートしています。...
$
7.15
/ M UTF-8 bytes

