模型

產品

定價

文檔

部落格

關於

聯繫

🎉 Nex-N2-Pro可在 SiliconFlow 上使用。現在就試試看。

🎉 Nex-N2-Pro可在 SiliconFlow 上使用。現在就試試看。

模型

Qwen3-Omni-30B-A3B-Captioner

Qwen3-Omni-30B-A3B-Captioner

API 參考

關於Qwen3-Omni-30B-A3B-Captioner

Qwen3-Omni-30B-A3B-Captioner 是來自阿里巴巴 Qwen 團隊的視覺語言模型 (VLM)，屬於 Qwen3 系列的一部分。它專門為生成高品質、詳細且準確的圖像說明而設計。基於 30B 總參數專家混合 (MoE) 架構，該模型可以深入理解圖像內容並將其轉化為豐富自然的語言文本。

用例

探索 Qwen3-Omni-30B-A3B-Captioner 先進的音頻分析如何將原始聲音轉換為可行的詳細見解。

進階媒體索引

自動生成豐富、可搜索的音頻和視頻存檔的標題，提升內容的可發現性和管理。

使用案例示例:

"對大量歷史廣播文庫進行索引，識別特定的講者、背景音樂和環境聲音，實現精確的內容檢索。"

可及的音頻內容

為音頻內容提供詳細的上下文標題，不僅僅是簡單的轉錄，還包括情感線索、音響事件和環境背景，以便於可及性和分析。

使用案例示例:

"為紀錄片電影生成了全面的標題，不僅描述了對話，還包括配樂傳達的情緒和特定的環境聲音，幫助聽力障礙觀眾。"

主動安全監控

分析即時音頻流以檢測和描述關鍵事件、異常或情感變化，使在安全或監控應用中能主動應對。

使用案例示例:

"監控公共空間的音頻，準確識別突發的激烈爭吵、玻璃破裂和孩子哭泣，提醒保安人員潛在事件。"

客戶互動分析

自動分析客服通話以提取詳細摘要、識別情感並根據語音的細微差別和背景音頻事件對問題進行分類。

使用案例示例:

"處理了數千通客服電話，準確地找出客戶沮喪的情況（語調）、產品故障聲音和常見投訴主題，改善服務質量。"

創意聲音設計與策展

通過自動編目和描述音頻資源的詳細信息，幫助聲音設計師和音樂製作人，簡化內容的發現和使用。

使用案例示例:

"為一個遊戲工作室對大型音效庫進行分類，按樂器、情緒、速度和特定音響事件（例如："管弦樂漸強與雷聲"）描述每個片段，提高資產檢索的效率。"

元數據

創建於

2025年10月4日

許可證

-

供應商

Qwen

HuggingFace

Qwen3-Omni-30B-A3B-Captioner

規格

狀態

Deprecated

架構

Mixture of Experts

經過校準的

是

專家並行

是

總參數

30B

啟用的參數

3B

推理

否

精度

FP8

上下文長度

66K

最大輸出長度

66K

與其他模型比較

看看這個模型與其他模型的對比如何。

Qwen

chat

Qwen3.6-35B-A3B

發行日期：2026年5月9日

總上下文：

262K

最大輸出：

262K

輸入：

$

0.2

/ M Tokens

輸出：

$

1.6

/ M Tokens

Qwen

chat

Qwen3.6-27B

發行日期：2026年5月9日

總上下文：

262K

最大輸出：

262K

輸入：

$

0.3

/ M Tokens

輸出：

$

3.2

/ M Tokens

Qwen

chat

Qwen3.5-397B-A17B

發行日期：2026年5月9日

總上下文：

262K

最大輸出：

262K

輸入：

$

0.39

/ M Tokens

輸出：

$

2.34

/ M Tokens

Qwen

chat

Qwen3.5-122B-A10B

發行日期：2026年5月9日

總上下文：

262K

最大輸出：

262K

輸入：

$

0.26

/ M Tokens

輸出：

$

2.08

/ M Tokens

Qwen

chat

Qwen3.5-35B-A3B

發行日期：2026年5月9日

總上下文：

262K

最大輸出：

262K

輸入：

$

0.24

/ M Tokens

輸出：

$

1.8

/ M Tokens

Qwen

chat

Qwen3.5-27B

發行日期：2026年5月9日

總上下文：

262K

最大輸出：

262K

輸入：

$

0.25

/ M Tokens

輸出：

$

2.0

/ M Tokens

Qwen

chat

Qwen3.5-9B

發行日期：2026年5月9日

總上下文：

262K

最大輸出：

262K

輸入：

$

0.1

/ M Tokens

輸出：

$

0.15

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Instruct

發行日期：2025年10月21日

總上下文：

262K

最大輸出：

262K

輸入：

$

0.2

/ M Tokens

輸出：

$

0.6

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Thinking

發行日期：2025年10月21日

總上下文：

262K

最大輸出：

262K

輸入：

$

0.2

/ M Tokens

輸出：

$

1.5

/ M Tokens

準備好加速您的人工智能開發了嗎？

準備好加速您的人工智能開發了嗎？

準備好加速您的人工智能開發了嗎？

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·