目录

摘要: Qwen3-VL——Qwen系列中功能最强大的Vision-语言模型——现已在SiliconFlow上发布。此版本带来了突破性升级:出色的文本理解与生成、多模态推理、先进的空间与视频感知、262K上下文窗口、32种语言的OCR增强版,以及更强的代理交互。由最多可达235B参数的密集和MoE架构驱动,结合交错式-MRoPE和DeepStack等创新,它为多模态AI设定了新的基准。
现在,Instruct和Thinking版本均在SiliconFlow上线。立即使用SiliconFlow的生产级API开始构建!
我们很高兴地宣布,Qwen3-VL系列现在在SiliconFlow上线了。作为新一代的Vision-语言模型,旨在更好地看待、理解并响应世界,Qwen3-VL展示了重新定义多模态AI的突破能力。它能够实现精准的视频理解、32种语言的扩展OCR,能够更好地处理罕见字符和历史文本,以及用于超长内容分析的262K上下文窗口。
SiliconFlow现在提供Instruct和Thinking两个版本:前者针对高效执行进行优化,后者增强了深入推理能力,给予用户选择合适模型的灵活性。
通过SiliconFlow的Qwen3-VL API,您可以期待:
具有成本效益的定价:
Qwen3-VL-30B-A3B-Instruct 每百万token $0.29(input)和每百万token $1(output)
Qwen3-VL-30B-A3B-Thinking 每百万token $0.29(input)和每百万token $1(output)
Qwen3-VL-235B-A22B-Instruct 每百万token $0.3(input)和每百万token $1.5(output)
Qwen3-VL-235B-A22B-Thinking 每百万token $0.45(input)和每百万token $3.5(output)
262K上下文窗口:支持对长文档和多轮对话的无缝处理。
通过这些组合—30B对比235B,Instruct对比Thinking—SiliconFlow使开发者能够在效率、深度和成本之间找到平衡,将灵活的多模态智能带入各个规模的生产中。
Qwen3-VL的重要性
大多数Vision-语言模型面临折衷:广泛的能力还是深层的推理,很少两者兼顾。通用模型在复杂逻辑上表现不佳,专用模型缺乏通用性。看到并不等于理解——理解不意味着能够解决问题。
Qwen3-VL通过双版本方法解决了这个问题:
Instruct:优化用于广泛的日常Vision-语言任务,具有可靠的性能。
Thinking:通过增强的推理能力,优化用于STEM和数学中的复杂问题解决。
它们共同在三个关键领域解锁新能力:
1. 代理感知
视觉代理:让AI为您导航应用程序和网站!它识别UI元素,了解其功能,并自动执行多步骤任务。还在 OS World等基准测试中取得了全球顶尖表现,并通过使用工具大幅提升其在细粒度感知任务上的表现。
更佳的空间理解:从绝对坐标到相对坐标的二维定位。它可以判断物体的位置、视角变化和遮挡关系。还支持3D定位,为复杂空间推理和具身AI应用奠定基础。
设计到代码:上传截图或视频,生成生产级别的Draw.io图表、HTML、CSS或JavaScript,实现“所见即所得”的可视化编程。

2. 感知与理解
长上下文与长视频理解:所有模型原生支持262K上下文窗口,可扩展至100万token。这意味着您可以输入数百页的技术文档、整本教科书,甚至数小时的视频——模型会记住所有内容并准确检索细节。
扩展的OCR:支持32种语言,在模糊/倾斜/低光图像上表现出色,更好地处理罕见字符、古代文本和技术术语,还为长文档提供改进的结构解析。
升级的视觉感知与识别:通过提高预训练数据的质量和多样性,模型现在能够识别更广泛的对象——从名人、动漫角色、产品和地标到动物和植物——满足日常生活和专业“识别任何事物”需求。

3. 数学与语言
更强的多模态推理(Thinking版本):Thinking模型专为STEM和数学推理进行优化。在面对复杂学科问题时,它能够注意到细节、分解问题、分析因果关系,并给出逻辑的、基于证据的答案。在MathVision、MMMU和MathVista等推理基准测试中表现出色。
杰出的文本中心性能:Qwen3-VL在早期阶段进行文本和视觉模态的联合预训练,不断增强其语言能力。在文本任务上的表现与Qwen3-235B-A22B-2507——旗舰语言模型——相匹配,使其成为下一代Vision-语言模型中真正的“以文本为基础的多模态强者”。

基准性能与技术架构更新
Qwen3-VL不仅展现了广泛的Vision-语言能力,还在多模态和纯文本评估中实现了最先进的性能。
Qwen3-VL-235B-A22B-Instruct & Qwen3-VL-235B-A22B-Thinking:


除了基准性能,Qwen3-VL-235B-A22B-Instruct在开源社区中也取得了显著的影响力。根据OpenRouter最新统计(2025年10月),它以48%的市场份额在图像处理方面排名#1,超越其他领先的多模态模型如Gemini 2.5 Flash和Claude Sonnet 4.5。
值得注意的是,SiliconFlow还作为提供者在OpenRouter上提供Qwen3-VL-235B-A22B-Instruct,以及其他领先模型如DeepSeek-V3.2-Exp、GLM-4.6、Kimi K2-0905和GPT-OSS-120B,为开发者提供统一访问一系列尖端模型的机会。

Qwen3-VL-30B-A3B-Instruct & Qwen3-VL-30B-A3B-Thinking:


架构创新
三大核心突破赋予Qwen3-VL强大的能力:
交错式-MRoPE:通过强大的位置嵌入对时间、宽度和高度进行全频分配,增强长时段视频推理。
DeepStack:融合多层次ViT特征,以捕捉细粒度细节并增强Image-文本对齐。
文本-时间戳对齐:超越T-RoPE,实现精确的时间戳事件定位,加强视频时间建模。

现实应用场景
视频内容分析与索引:以帧准确性处理数小时的视频,可询问“第15分钟发生了什么?”或“总结红衣演讲者讨论的关键主题。”理想用于需高效长篇分析的媒体公司、教育平台和内容审核。
智能文档处理:从复杂文档中提取结构化信息,支持32种语言,包括历史档案、技术手册和模糊扫描件。处理整本书(高达1M token)用于法律研究、学术分析或企业知识管理。
无代码开发与UI自动化:上传设计原型以生成生产级代码,或让视觉代理自主导航应用程序——填写表格、测试工作流、执行多步骤任务。加速原型化、QA自动化,并减少手动编码时间。
STEM教育与研究:分析科学图表和数学方程,提供逐步推理。Thinking版本分解复杂问题,解释因果关系,并为学生、研究人员和教育工作者提供基于证据的答案。
立即开始
1. 探索:在Qwen3-VL系列的SiliconFlow模型广场中尝试。
2. 集成:使用我们的OpenAI兼容API。在SiliconFlow API文档中探索完整的API规范。
无论您是在构建多模态代理、自动化UI工作流,还是分析数小时的视频,Qwen3-VL都能赋予您看、理解和推理的能力。
立即使用SiliconFlow的生产级API开始,并将视觉智能融入您的工作流!
