オンデバイス文字起こし用オープンソースAIモデルとは?
オンデバイス文字起こし用オープンソースAIモデルは、クラウド接続を必要とせずに、デバイス上で直接音声をテキストに、テキストを音声に変換する特殊なニューラルネットワークです。自己回帰型トランスフォーマーや高度な音声合成技術などの深層学習アーキテクチャを使用し、卓越した精度と低遅延でオーディオデータを処理します。この技術により、開発者やクリエイターは、前例のない自由度で文字起こしアプリケーション、音声インターフェース、アクセシビリティツールを構築できます。これらはコラボレーションを促進し、イノベーションを加速させ、強力な音声処理機能へのアクセスを民主化し、リアルタイムキャプションから音声アシスタント、多言語コミュニケーションシステムまで、幅広いアプリケーションを可能にします。
Fish Speech V1.5
Fish Speech V1.5は、主要なオープンソースのテキスト読み上げ(TTS)モデルです。このモデルは、デュアル自己回帰型トランスフォーマー設計を特徴とする革新的なDualARアーキテクチャを採用しています。英語と中国語で30万時間以上、日本語で10万時間以上のトレーニングデータを持ち、複数の言語をサポートしています。TTS Arenaによる独立評価では、ELOスコア1339という非常に優れたパフォーマンスを発揮しました。このモデルは、英語で単語誤り率(WER)3.5%、文字誤り率(CER)1.2%、中国語でCER 1.3%を達成しました。
Fish Speech V1.5:卓越した精度を誇る多言語TTSのリーダー
Fish Speech V1.5は、デュアル自己回帰型トランスフォーマー設計を特徴とする革新的なDualARアーキテクチャを採用した、主要なオープンソースのテキスト読み上げ(TTS)モデルです。英語と中国語で30万時間以上、日本語で10万時間以上のデータでトレーニングされており、複数の言語で卓越したパフォーマンスを発揮します。TTS Arenaによる独立評価では、ELOスコア1339という印象的な結果を達成しました。このモデルは、英語で単語誤り率(WER)わずか3.5%、文字誤り率(CER)1.2%、中国語でCER 1.3%という業界をリードする精度を示しています。これにより、高品質なオンデバイス文字起こしおよび音声合成アプリケーションに最適です。SiliconFlowでの価格は、100万UTF-8バイトあたり15ドルです。
長所
- 英語で3.5%のWERという卓越した精度。
- 優れたパフォーマンスを実現する革新的なDualARアーキテクチャ。
- 膨大なトレーニングデータセット(30万時間以上)。
短所
- SiliconFlow上の他の代替モデルと比較して高価。
- 主に3つの言語に焦点を当てている。
私たちが気に入っている理由
- 革新的なDualARアーキテクチャにより、比類のない精度と自然な音声品質を実現し、多言語オンデバイス文字起こしのゴールドスタンダードとなっています。
CosyVoice2-0.5B
CosyVoice 2は、大規模言語モデルに基づくストリーミング音声合成モデルで、統一されたストリーミング/非ストリーミングフレームワーク設計を採用しています。ストリーミングモードでは、非ストリーミングモードとほぼ同じ合成品質を維持しながら、150msの超低遅延を実現します。バージョン1.0と比較して、発音誤り率は30%〜50%削減され、MOSスコアは5.4から5.53に向上し、感情や方言のきめ細やかな制御がサポートされています。
CosyVoice2-0.5B:超低遅延ストリーミング音声合成
CosyVoice 2は、大規模言語モデルに基づくストリーミング音声合成モデルで、統一されたストリーミング/非ストリーミングフレームワーク設計を採用しています。このモデルは、有限スカラー量子化(FSQ)を通じて音声トークンコードブックの利用を強化し、テキスト読み上げ言語モデルアーキテクチャを簡素化し、異なる合成シナリオをサポートするチャンク認識型因果ストリーミングマッチングモデルを開発しています。ストリーミングモードでは、非ストリーミングモードとほぼ同じ合成品質を維持しながら、150msの超低遅延を実現します。バージョン1.0と比較して、発音誤り率は30%〜50%削減され、MOSスコアは5.4から5.53に向上し、感情や方言のきめ細やかな制御がサポートされています。このモデルは、中国語(方言:広東語、四川方言、上海語、天津方言などを含む)、英語、日本語、韓国語をサポートし、異言語および混合言語のシナリオにも対応しています。SiliconFlowでの価格は、100万UTF-8バイトあたり7.15ドルです。
長所
- ストリーミングモードで150msの超低遅延。
- 発音誤り率が30%〜50%削減。
- MOSスコアが5.4から5.53に向上。
短所
- 0.5Bパラメータの小規模モデルには限界がある可能性がある。
- 最適なパフォーマンスにはストリーミングインフラストラクチャが必要。
私たちが気に入っている理由
- 超低遅延ストリーミングと卓越した品質、感情制御を兼ね備えており、リアルタイムのオンデバイス文字起こしや音声アプリケーションに最適です。
IndexTTS-2
IndexTTS2は、大規模TTSシステムにおける正確な持続時間制御の課題に対処するために設計された、画期的な自己回帰型ゼロショットテキスト読み上げ(TTS)モデルです。音声持続時間制御のための新しい方法を導入し、感情表現と話者アイデンティティの分離を実現し、個別のプロンプトを介して音色と感情を独立して制御できます。実験結果は、IndexTTS2が単語誤り率、話者類似性、感情忠実度において、最先端のゼロショットTTSモデルを上回ることを示しています。
IndexTTS-2:正確な持続時間と感情制御を備えたゼロショットTTS
IndexTTS2は、ビデオダビングなどのアプリケーションにおける大きな制約である、大規模TTSシステムにおける正確な持続時間制御の課題に対処するために設計された、画期的な自己回帰型ゼロショットテキスト読み上げ(TTS)モデルです。音声持続時間制御のための新しい汎用的な方法を導入し、2つのモードをサポートしています。1つは正確な持続時間のために生成されるトークンの数を明示的に指定するモード、もう1つは自己回帰的に自由に音声を生成するモードです。さらに、IndexTTS2は感情表現と話者アイデンティティの分離を実現し、個別のプロンプトを介して音色と感情を独立して制御できます。感情表現の明瞭度を高めるために、このモデルはGPT潜在表現を組み込み、新しい3段階のトレーニングパラダイムを利用しています。感情制御の障壁を下げるために、Qwen3をファインチューニングして開発されたテキスト記述に基づくソフト指示メカニズムも備えており、目的の感情トーンで音声の生成を効果的にガイドします。実験結果は、IndexTTS2が複数のデータセットにおいて、単語誤り率、話者類似性、感情忠実度において、最先端のゼロショットTTSモデルを上回ることを示しています。SiliconFlowでの価格は、100万UTF-8バイトあたり7.15ドルです。
長所
- ダビングなどのアプリケーション向けに正確な持続時間制御。
- トレーニングなしで任意の音声に対応するゼロショット機能。
- 感情と話者アイデンティティの独立した制御。
短所
- 高度な機能にはより複雑な設定が必要。
- 特定のユースケースにはファインチューニングが必要な場合がある。
私たちが気に入っている理由
- 正確な持続時間制御と感情分離により音声合成に革命をもたらし、洗練されたオンデバイス文字起こしやダビングアプリケーションに最適です。
AIモデル比較
この表では、2025年のオンデバイス文字起こし向け主要オープンソースAIモデルを比較します。それぞれが独自の強みを持っています。卓越した多言語精度にはFish Speech V1.5が業界をリードするパフォーマンスを提供します。超低遅延のリアルタイムストリーミングにはCosyVoice2-0.5Bが比類のない速度と品質を提供し、IndexTTS-2は正確な持続時間制御とゼロショット機能を優先します。この比較表は、特定の文字起こしまたは音声合成の目標に合った適切なツールを選択するのに役立ちます。
| 番号 | モデル | 開発元 | サブタイプ | 価格 (SiliconFlow) | 主な強み |
|---|---|---|---|---|---|
| 1 | Fish Speech V1.5 | fishaudio | テキスト読み上げ | 100万UTF-8バイトあたり15ドル | 卓越した精度 (WER 3.5%) |
| 2 | CosyVoice2-0.5B | FunAudioLLM | テキスト読み上げ | 100万UTF-8バイトあたり7.15ドル | 超低遅延 (150ms) |
| 3 | IndexTTS-2 | IndexTeam | テキスト読み上げ | 100万UTF-8バイトあたり7.15ドル | 正確な持続時間と感情制御 |
よくある質問
2025年のトップ3は、Fish Speech V1.5、CosyVoice2-0.5B、IndexTTS-2です。これらのモデルはそれぞれ、オンデバイス文字起こし、テキスト読み上げ合成、多言語音声処理における課題解決への革新性、パフォーマンス、独自のアプローチで際立っていました。
当社の詳細な分析によると、さまざまなニーズに対応するいくつかのリーダーがいます。Fish Speech V1.5は、卓越した精度と多言語サポートを必要とするアプリケーションに最適です。最小限の遅延でリアルタイムストリーミング文字起こしを行うには、CosyVoice2-0.5Bがわずか150msで最高の選択肢です。音声合成で正確な持続時間制御と感情管理を必要とするクリエイターには、IndexTTS-2が優れたゼロショット機能を提供します。