模型

產品

定價

文檔

部落格

關於

聯繫

🎉 Kimi-K3可在 SiliconFlow 上使用。現在就試試看。

模型

Qwen3-VL-8B-Thinking

Qwen3-VL-8B-Thinking

API 參考

關於Qwen3-VL-8B-Thinking

Qwen3-VL-8B-Thinking 是 Qwen3 系列中一款視覺-語言模型，專為需要複雜推理的場景而優化。在這個思考模式中，模型在提供最終答案之前會進行逐步的思考和推理。

用例

探索 Qwen3-VL-8B-Thinking 在各個領域如何運用先進的多模態推理和逐步思考解決複雜的實際問題。

多模態科學推理

透過分析複雜的視覺和文本科學數據，加快發現，生成和驗證證明，並用逐步推理撰寫論文。

使用案例示例:

"分析顯微鏡影像和實驗數據，以推導蛋白質交互機制，提供一個新生物途徑的詳細逐步解釋。"

視覺代碼調試與生成

分析代碼、UI 截圖和執行視頻，找出邏輯錯誤，優化性能，並根據視覺設計生成代碼。

使用案例示例:

"通過分析應用程序行為的屏幕錄像和相應的 JavaScript 代碼來調試 React Native UI 錯誤，找出一個微妙的狀態管理錯誤。"

多模態金融洞察

對視覺金融報告、市場圖表和文本數據執行多步量化分析，推斷因果關係以提供戰略建議。

使用案例示例:

"分析一家公司季度收益報告（PDF 掃描）和股票圖表模式，生成一個投資論文，詳細說明風險和增長，並提供逐步的財務推理。"

視覺系統和文件審計

通過在視覺和文本格式中推理邏輯依賴關係，審計複雜系統、法律合同或工程圖，標記不一致之處。

使用案例示例:

"檢查一組建築藍圖和相應的建築法規，通過邏輯推理找出潛在的結構不一致，並提出更安全的設計修改建議。"

智能 UI 自動化

通過識別元素、理解功能和通過視覺感知及推理來調用工具，自動化 PC/移動 GUI 中的複雜任務。

使用案例示例:

"在遺留 CRM 系統中自動化數據輸入過程，通過視覺導航界面，從電子表格提取信息並輸入到正確的欄位。"

設計到代碼轉換

直接從設計模型的圖像或視頻輸入生成功能性網頁組件（HTML/CSS/JS）或圖表（Draw.io）。

使用案例示例:

"將手繪的網頁線框草圖轉換為響應式的 HTML/CSS 布局，並具有基本的 JavaScript 交互性，大大加快了前端開發。"

空間意識與機器人技術

使機器人或 AR 系統能夠理解實時環境中物體的位置、視點和遮擋，以進行複雜的導航和互動。

使用案例示例:

"指導機器臂精確地從混亂的箱子中挑選和放置不規則形狀的物體，通過推理其 3D 位置和從單個相機視角的潛在遮擋。"

深度視頻內容分析

分析長達數小時的視頻內容，進行全面回憶和二級索引，提取關鍵事件、摘要和各種應用的洞察。

使用案例示例:

"總結一段 3 小時的企業培訓視頻，標識所有關鍵討論點、演講者變更和行動項目，並附上精確的時間戳，創建可搜尋的索引。"

高級多語言 OCR

從多樣且具挑戰性的文件中提取文本（低光、模糊、古老字符），準確解析複雜的文件結構，共 32 種語言。

使用案例示例:

"數位化一組多語言的歷史手稿，準確提取文本並保留原始文件的佈局和層級結構，儘管其墨水褪色和紙張老化。"

元數據

創建於

2025年10月15日

許可證

APACHE-2.0

供應商

Qwen

HuggingFace

Qwen3-VL-8B-Thinking

規格

狀態

Deprecated

架構

Vision-Language Transformer

經過校準的

否

專家並行

否

總參數

啟用的參數

推理

否

精度

FP8

上下文長度

262K

最大輸出長度

262K

與其他模型比較

看看這個模型與其他模型的對比如何。

Qwen

chat

Qwen3-VL-32B-Instruct

發行日期：2025年10月21日

總上下文：

262K

最大輸出：

262K

輸入：

0.2

/ M Tokens

輸出：

0.6

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Thinking

發行日期：2025年10月21日

總上下文：

262K

最大輸出：

262K

輸入：

0.2

/ M Tokens

輸出：

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Instruct

發行日期：2025年10月15日

總上下文：

262K

最大輸出：

262K

輸入：

0.18

/ M Tokens

輸出：

0.68

/ M Tokens

Qwen

chat