模型

产品

定价

文档

博客

关于

联系

🎉 gemma-4-31B-it 可以在 SiliconFlow 上使用。现在就尝试吧。

返回博客

Qwen3-VL 在 SiliconFlow 上：新一代 VLM，拥有更好的世界理解能力

2025年10月14日

摘要： Qwen3-VL——Qwen系列中功能最强大的Vision-语言模型——现已在SiliconFlow上发布。此版本带来了突破性升级：出色的文本理解与生成、多模态推理、先进的空间与视频感知、262K上下文窗口、32种语言的OCR增强版，以及更强的代理交互。由最多可达235B参数的密集和MoE架构驱动，结合交错式-MRoPE和DeepStack等创新，它为多模态AI设定了新的基准。
现在，Instruct和Thinking版本均在SiliconFlow上线。立即使用SiliconFlow的生产级API开始构建！

我们很高兴地宣布，Qwen3-VL系列现在在SiliconFlow上线了。作为新一代的Vision-语言模型，旨在更好地看待、理解并响应世界，Qwen3-VL展示了重新定义多模态AI的突破能力。它能够实现精准的视频理解、32种语言的扩展OCR，能够更好地处理罕见字符和历史文本，以及用于超长内容分析的262K上下文窗口。

SiliconFlow现在提供Instruct和Thinking两个版本：前者针对高效执行进行优化，后者增强了深入推理能力，给予用户选择合适模型的灵活性。

通过SiliconFlow的Qwen3-VL API，您可以期待：

具有成本效益的定价：
- Qwen3-VL-30B-A3B-Instruct 每百万token $0.29（input）和每百万token $1（output）
- Qwen3-VL-30B-A3B-Thinking 每百万token $0.29（input）和每百万token $1（output）
- Qwen3-VL-235B-A22B-Instruct 每百万token $0.3（input）和每百万token $1.5（output）
- Qwen3-VL-235B-A22B-Thinking 每百万token $0.45（input）和每百万token $3.5（output）
262K上下文窗口：支持对长文档和多轮对话的无缝处理。

通过这些组合—30B对比235B，Instruct对比Thinking—SiliconFlow使开发者能够在效率、深度和成本之间找到平衡，将灵活的多模态智能带入各个规模的生产中。

Qwen3-VL的重要性

大多数Vision-语言模型面临折衷：广泛的能力还是深层的推理，很少两者兼顾。通用模型在复杂逻辑上表现不佳，专用模型缺乏通用性。看到并不等于理解——理解不意味着能够解决问题。

Qwen3-VL通过双版本方法解决了这个问题：

Instruct：优化用于广泛的日常Vision-语言任务，具有可靠的性能。
Thinking：通过增强的推理能力，优化用于STEM和数学中的复杂问题解决。

它们共同在三个关键领域解锁新能力：

1. 代理感知

视觉代理：让AI为您导航应用程序和网站！它识别UI元素，了解其功能，并自动执行多步骤任务。还在 OS World等基准测试中取得了全球顶尖表现，并通过使用工具大幅提升其在细粒度感知任务上的表现。

更佳的空间理解：从绝对坐标到相对坐标的二维定位。它可以判断物体的位置、视角变化和遮挡关系。还支持3D定位，为复杂空间推理和具身AI应用奠定基础。

设计到代码：上传截图或视频，生成生产级别的Draw.io图表、HTML、CSS或JavaScript，实现“所见即所得”的可视化编程。

2. 感知与理解

长上下文与长视频理解：所有模型原生支持262K上下文窗口，可扩展至100万token。这意味着您可以输入数百页的技术文档、整本教科书，甚至数小时的视频——模型会记住所有内容并准确检索细节。

扩展的OCR：支持32种语言，在模糊/倾斜/低光图像上表现出色，更好地处理罕见字符、古代文本和技术术语，还为长文档提供改进的结构解析。

升级的视觉感知与识别：通过提高预训练数据的质量和多样性，模型现在能够识别更广泛的对象——从名人、动漫角色、产品和地标到动物和植物——满足日常生活和专业“识别任何事物”需求。

3. 数学与语言

更强的多模态推理（Thinking版本）：Thinking模型专为STEM和数学推理进行优化。在面对复杂学科问题时，它能够注意到细节、分解问题、分析因果关系，并给出逻辑的、基于证据的答案。在MathVision、MMMU和MathVista等推理基准测试中表现出色。

杰出的文本中心性能：Qwen3-VL在早期阶段进行文本和视觉模态的联合预训练，不断增强其语言能力。在文本任务上的表现与Qwen3-235B-A22B-2507——旗舰语言模型——相匹配，使其成为下一代Vision-语言模型中真正的“以文本为基础的多模态强者”。

基准性能与技术架构更新

Qwen3-VL不仅展现了广泛的Vision-语言能力，还在多模态和纯文本评估中实现了最先进的性能。

Qwen3-VL-235B-A22B-Instruct & Qwen3-VL-235B-A22B-Thinking：

除了基准性能，Qwen3-VL-235B-A22B-Instruct在开源社区中也取得了显著的影响力。根据OpenRouter最新统计（2025年10月），它以48%的市场份额在图像处理方面排名#1，超越其他领先的多模态模型如Gemini 2.5 Flash和Claude Sonnet 4.5。

值得注意的是，SiliconFlow还作为提供者在OpenRouter上提供Qwen3-VL-235B-A22B-Instruct，以及其他领先模型如DeepSeek-V3.2-Exp、GLM-4.6、Kimi K2-0905和GPT-OSS-120B，为开发者提供统一访问一系列尖端模型的机会。

Qwen3-VL-30B-A3B-Instruct & Qwen3-VL-30B-A3B-Thinking：

架构创新

三大核心突破赋予Qwen3-VL强大的能力：

交错式-MRoPE：通过强大的位置嵌入对时间、宽度和高度进行全频分配，增强长时段视频推理。
DeepStack：融合多层次ViT特征，以捕捉细粒度细节并增强Image-文本对齐。
文本-时间戳对齐：超越T-RoPE，实现精确的时间戳事件定位，加强视频时间建模。

现实应用场景

视频内容分析与索引：以帧准确性处理数小时的视频，可询问“第15分钟发生了什么？”或“总结红衣演讲者讨论的关键主题。”理想用于需高效长篇分析的媒体公司、教育平台和内容审核。

智能文档处理：从复杂文档中提取结构化信息，支持32种语言，包括历史档案、技术手册和模糊扫描件。处理整本书（高达1M token）用于法律研究、学术分析或企业知识管理。

无代码开发与UI自动化：上传设计原型以生成生产级代码，或让视觉代理自主导航应用程序——填写表格、测试工作流、执行多步骤任务。加速原型化、QA自动化，并减少手动编码时间。

STEM教育与研究：分析科学图表和数学方程，提供逐步推理。Thinking版本分解复杂问题，解释因果关系，并为学生、研究人员和教育工作者提供基于证据的答案。

立即开始

1. 探索：在Qwen3-VL系列的SiliconFlow模型广场中尝试。
2. 集成：使用我们的OpenAI兼容API。在SiliconFlow API文档中探索完整的API规范。

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "Qwen/Qwen3-VL-235B-A22B-Thinking",    "messages": [        {            "role": "user",            "content": [                {                    "type": "image_url",                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recukL5nm686G1.png"}                },                {                    "type": "text",                    "text": "What's this?"                }            ]        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.request("POST", url, json=payload, headers=headers)print(response.text)

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "Qwen/Qwen3-VL-235B-A22B-Thinking",    "messages": [        {            "role": "user",            "content": [                {                    "type": "image_url",                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recukL5nm686G1.png"}                },                {                    "type": "text",                    "text": "What's this?"                }            ]        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.request("POST", url, json=payload, headers=headers)print(response.text)

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "Qwen/Qwen3-VL-235B-A22B-Thinking",    "messages": [        {            "role": "user",            "content": [                {                    "type": "image_url",                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recukL5nm686G1.png"}                },                {                    "type": "text",                    "text": "What's this?"                }            ]        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.request("POST", url, json=payload, headers=headers)print(response.text)

无论您是在构建多模态代理、自动化UI工作流，还是分析数小时的视频，Qwen3-VL都能赋予您看、理解和推理的能力。

立即使用SiliconFlow的生产级API开始，并将视觉智能融入您的工作流！

业务或销售咨询 →

立即加入我们的Discord社区 →

在X上关注我们以获取最新动态 →

浏览SiliconFlow上的所有可用模型 →

上一个