Fish Speech V1.5 adalah model text-to-speech (TTS) open-source terkemuka. Model ini memanfaatkan arsitektur DualAR yang inovatif, menampilkan desain transformer autoregressive ganda. Ini mendukung beberapa bahasa, dengan lebih dari 300.000 jam data pelatihan untuk Bahasa Inggris dan Cina, dan lebih dari 100.000 jam untuk Bahasa Jepang. Dalam evaluasi independen oleh TTS Arena, model ini berkinerja sangat baik, dengan skor ELO 1339. Model ini mencapai tingkat kesalahan kata (WER) sebesar 3,5% dan tingkat kesalahan karakter (CER) sebesar 1,2% untuk Bahasa Inggris, serta CER sebesar 1,3% untuk karakter Cina....