Qwen3-VL-8B 現在在 SiliconFlow 上：小模型，大願景

2025年10月28日

重點摘要：Qwen3-VL-8B — Qwen3-VL家族的最新成員 — 現已在SiliconFlow上線。這款緊湊型視覺-語言模型在指令和思考變體中提供全方位多模態推理，而且顯著降低VRAM消耗。儘管其參數大小為8B，但它繼承了旗艦Qwen3-VL-235B的全部功能 — 從高級文本生成到空間和影片理解 — 同時超越更大模型，如Gemini 2.5 Flash Lite和GPT-5 Nano。證明了效能與表現的結合，Qwen3-VL-8B現已通過SiliconFlow的可生產API提供。

擴展Qwen3-VL生態系統，SiliconFlow很高興推出**Qwen3-VL-8B系列到我們的模型目錄** — 一個緊湊但強大的高密度視覺-語言模型，重新定義了參數大小和多模態能力之間的平衡。提供指令和思考變體，繼承了其旗艦兄弟的全部功能，Qwen3-VL-235B-A22B-Instruct和Qwen3-VL-235B-A22B-Thinking，包括卓越的文本理解和生成、深入的視覺感知和推理、延長的上下文長度、增強的空間和影片動態理解，以及更強的代理能力。

使用SiliconFlow的Qwen3-VL-8B API，您可以期待：

經濟實惠的定價：
- Qwen3-VL-8B-Instruct：$0.18/百萬個tokens（輸入）和$0.68/百萬個tokens（輸出）
- Qwen3-VL-8B-Thinking：$0.18/百萬個tokens（輸入）和$2.00/百萬個tokens（輸出）
262K 上下文窗口：支持跨文本、圖像和影片的長形式多模態理解。
無縫整合：立即使用SiliconFlow的OpenAI**/Anthropic兼容API**進行構建，或整合到您現有的工作流程中。

為何Qwen3-VL-8B重要

基於Qwen3-VL家族的基礎，8B變體介紹了一套旨在於現實世界應用的綜合增強功能：

視覺代理能力：操作PC/移動設備GUI — 識別元素，理解功能，調用工具，並獨立完成任務。
高級空間感知：判斷物體位置、視點和遮擋；提供更強的2D基礎，並為空間推理和具身人工智能啟用3D基礎。
視覺編碼提升：從圖像和影片生成Draw.io/HTML/CSS/JS。

長上下文 & 影片理解：原生256K上下文（可擴展至1M），處理書籍和長時間影片，具完整回憶和秒級索引。
增強的多模態推理：在STEM/數學中表現卓越，具因果分析和邏輯、基於證據的答案。
擴展的OCR：支持32種語言（從19種增加），在低光、模糊和傾斜條件下增強穩健性，提高對罕見或古代字符和技術術語的處理，以及提高長文檔結構解析。

升級的視覺識別：更廣泛且高品質的預訓練，使全面識別名人、動漫、產品、地標、植物/動物等。
與純LLM相媲美的文本理解：無損、統一的文本-視覺融合。

這些增強功能在公共基準上轉化為卓越的現實世界表現。Qwen3-VL-8B在STEM、VQA、OCR、影片理解和基於代理的任務中表現出色 — 超越Gemini 2.5 Flash Lite和**GPT-5 Nano，甚至媲美更大的Qwen2.5-VL-72B**。

尤其是在空間推理性能上取得了顯著成績，為提升具身智能應用提供了堅實的基礎。

此外，更小的多模態模型總是面臨基本的取捨：改善視覺能力往往會削弱文本理解，反之亦然。這種“跷跷板效應”長期以來一直是創造緊湊但有能力的視覺-語言模型的障礙。Qwen3-VL-8B通過平衡共同優化視覺精度和文本穩健性克服了這一限制。

通過架構創新和技術優化，該模型顯著提升多模態感知，同時保持在下面基準中展示的強大文本理解。

結果是？更多的能力現在適合一個更小的模型 — 從識別到推理，從文本到圖像和影片。

現實世界應用場景

憑藉其緊湊的8B密集架構和全譜多模態能力，Qwen3-VL-8B將先進的視覺智能帶入實際工作流程：

視覺推理與STEM任務：解釋圖表、表格和數學公式以清楚地邏輯解釋解決幾何、物理或化學問題。適合於教育、研究和AI輔導系統。
文檔理解與OCR：從掃描文檔、收據或技術文件中提取和摘要信息，涵蓋32種語言。支持複雜佈局解析、表格識別和結構數據轉換。
動態視覺與代理交互：分析影片幀，識別GUI元素，並模擬PC或移動界面內的交互 — 使能自主代理在現實世界環境中“看、推理和行動”。
多模態創作：將視覺輸入轉換為創意或技術輸出，例如從截屏生成HTML/CSS/JS布局或從圖像和短片撰寫描述性敘述。

無論您是在構建智能助手、文檔分析系統或創意多模態工具，Qwen3-VL-8B通過SiliconFlow的API服務將旗艦級多模態智能引入您的工作流程。

立即開始

探索：在SiliconFlow遊樂場中嘗試Qwen3-VL-8B系列。
集成：使用我們的OpenAI兼容API。在SiliconFlow API文件中探索完整的API規格。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "Qwen/Qwen3-VL-8B-Instruct",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recufyDh5zjKVl.png"}
                },
                {
                    "type": "text",
                    "text": "what's this?"
                }
            ]
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "Qwen/Qwen3-VL-8B-Instruct",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recufyDh5zjKVl.png"}
                },
                {
                    "type": "text",
                    "text": "what's this?"
                }
            ]
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "Qwen/Qwen3-VL-8B-Instruct",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recufyDh5zjKVl.png"}
                },
                {
                    "type": "text",
                    "text": "what's this?"
                }
            ]
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)