Fish Speech V1.5 — ведущая модель преобразования текста в речь (TTS) с открытым исходным кодом. Model использует инновационную архитектуру DualAR, включающую двухслойный авторегрессивный дизайн трансформера. Она поддерживает несколько языков, с более чем 300,000 часами тренировочных данных для английского и китайского языков, и более 100,000 часов для японского. В независимых оценках TTS Arena Model показала себя исключительно хорошо, с рейтингом ELO 1339. Model достигла уровня ошибки слов (WER) в 3.5% и уровня ошибки символов (CER) в 1.2% для английского языка, и уровня ошибки символов (CER) в 1.3% для китайских символов....