最先進的

人工智能模型庫

一個 API 可以運行 200 多個尖端 AI 模型，並在幾秒鐘內部署

最先進的

人工智能模型庫

一個 API 可以運行 200 多個尖端 AI 模型，並在幾秒鐘內部署

最先進的

人工智能模型庫

一個 API 可以運行 200 多個尖端 AI 模型，並在幾秒鐘內部署

All

Featured

LLM

Vision

Image

Video

Audio

Serverless

FunAudioLLM

Text-to-Speech

FunAudioLLM/CosyVoice2-0.5B

發行日期：2024年12月16日

CosyVoice 2 是一個基於大型語言模型的流式語音合成模型，採用統一的流式/非流式框架設計。模型通過有限標量量化（FSQ）增強了語音token代碼簿的使用，簡化了文本到語音的語言模型結構，並開發了支持不同合成場景的塊感知因果流式匹配模型。在流式模式下，模型實現了150毫秒的超低延遲，同時保持的合成質量幾乎與非流式模式相同。與1.0版相比，發音錯誤率降低了30%-50%，MOS評分從5.4提高到5.53，並支持對情感和方言的細粒度控制。該模型支持中文（包括方言：粵語、四川話、上海話、天津話等）、英語、日語、韓語，並支持跨語言和混合語言場景。...

7.15

/ M UTF-8 bytes

輸入：

text

/ M UTF-8 bytes

準備好加速您的人工智能開發了嗎？