Qwen3-VL 在 SiliconFlow 上:新一代 VLM,拥有更好的世界理解能力

2025年10月14日

目录

Qwen3-VL 在 SiliconFlow

摘要: Qwen3-VL——Qwen系列中功能最强大的Vision-语言模型——现已在SiliconFlow上发布。此版本带来了突破性升级:出色的文本理解与生成、多模态推理、先进的空间与视频感知、262K上下文窗口、32种语言的OCR增强版,以及更强的代理交互。由最多可达235B参数的密集和MoE架构驱动,结合交错式-MRoPE和DeepStack等创新,它为多模态AI设定了新的基准。

现在,InstructThinking版本均在SiliconFlow上线。立即使用SiliconFlow的生产级API开始构建!


我们很高兴地宣布,Qwen3-VL系列现在在SiliconFlow上线了。作为新一代的Vision-语言模型,旨在更好地看待、理解并响应世界,Qwen3-VL展示了重新定义多模态AI的突破能力。它能够实现精准的视频理解32种语言的扩展OCR,能够更好地处理罕见字符和历史文本,以及用于超长内容分析的262K上下文窗口。


SiliconFlow现在提供InstructThinking两个版本:前者针对高效执行进行优化,后者增强了深入推理能力,给予用户选择合适模型的灵活性。


通过SiliconFlow的Qwen3-VL API,您可以期待:



通过这些组合—30B对比235B,Instruct对比Thinking—SiliconFlow使开发者能够在效率、深度和成本之间找到平衡,将灵活的多模态智能带入各个规模的生产中。


Qwen3-VL的重要性


大多数Vision-语言模型面临折衷:广泛的能力还是深层的推理,很少两者兼顾。通用模型在复杂逻辑上表现不佳,专用模型缺乏通用性。看到并不等于理解——理解不意味着能够解决问题。


Qwen3-VL通过双版本方法解决了这个问题:


  • Instruct:优化用于广泛的日常Vision-语言任务,具有可靠的性能。

  • Thinking:通过增强的推理能力,优化用于STEM和数学中的复杂问题解决。


它们共同在三个关键领域解锁新能力:


1. 代理感知

  • 视觉代理:让AI为您导航应用程序和网站!它识别UI元素,了解其功能,并自动执行多步骤任务。还在 OS World等基准测试中取得了全球顶尖表现,并通过使用工具大幅提升其在细粒度感知任务上的表现。


  • 更佳的空间理解:从绝对坐标到相对坐标的二维定位。它可以判断物体的位置、视角变化和遮挡关系。还支持3D定位,为复杂空间推理和具身AI应用奠定基础。


  • 设计到代码:上传截图或视频,生成生产级别的Draw.io图表HTMLCSSJavaScript,实现“所见即所得”的可视化编程。


2. 感知与理解

  • 长上下文与长视频理解:所有模型原生支持262K上下文窗口,可扩展至100万token。这意味着您可以输入数百页的技术文档、整本教科书,甚至数小时的视频——模型会记住所有内容并准确检索细节。


  • 扩展的OCR:支持32种语言,在模糊/倾斜/低光图像上表现出色,更好地处理罕见字符、古代文本和技术术语,还为长文档提供改进的结构解析。


  • 升级的视觉感知与识别:通过提高预训练数据的质量和多样性,模型现在能够识别更广泛的对象——从名人、动漫角色、产品和地标到动物和植物——满足日常生活和专业“识别任何事物”需求。



3. 数学与语言

  • 更强的多模态推理(Thinking版本):Thinking模型专为STEM和数学推理进行优化。在面对复杂学科问题时,它能够注意到细节、分解问题、分析因果关系,并给出逻辑的、基于证据的答案。在MathVision、MMMU和MathVista等推理基准测试中表现出色。


  • 杰出的文本中心性能:Qwen3-VL在早期阶段进行文本和视觉模态的联合预训练,不断增强其语言能力。在文本任务上的表现与Qwen3-235B-A22B-2507——旗舰语言模型——相匹配,使其成为下一代Vision-语言模型中真正的“以文本为基础的多模态强者”。


Image


基准性能与技术架构更新


Qwen3-VL不仅展现了广泛的Vision-语言能力,还在多模态和纯文本评估中实现了最先进的性能。


  • Qwen3-VL-235B-A22B-Instruct & Qwen3-VL-235B-A22B-Thinking:


Image


Image



除了基准性能,Qwen3-VL-235B-A22B-Instruct在开源社区中也取得了显著的影响力。根据OpenRouter最新统计(2025年10月),它以48%的市场份额在图像处理方面排名#1,超越其他领先的多模态模型如Gemini 2.5 FlashClaude Sonnet 4.5


值得注意的是,SiliconFlow还作为提供者在OpenRouter上提供Qwen3-VL-235B-A22B-Instruct,以及其他领先模型如DeepSeek-V3.2-Exp、GLM-4.6、Kimi K2-0905和GPT-OSS-120B,为开发者提供统一访问一系列尖端模型的机会。



  • Qwen3-VL-30B-A3B-Instruct & Qwen3-VL-30B-A3B-Thinking:


Image


Image


架构创新


三大核心突破赋予Qwen3-VL强大的能力:


  • 交错式-MRoPE:通过强大的位置嵌入对时间、宽度和高度进行全频分配,增强长时段视频推理。

  • DeepStack:融合多层次ViT特征,以捕捉细粒度细节并增强Image-文本对齐。

  • 文本-时间戳对齐:超越T-RoPE,实现精确的时间戳事件定位,加强视频时间建模。


Image


现实应用场景


视频内容分析与索引:以帧准确性处理数小时的视频,可询问“第15分钟发生了什么?”或“总结红衣演讲者讨论的关键主题。”理想用于需高效长篇分析的媒体公司、教育平台和内容审核。


智能文档处理:从复杂文档中提取结构化信息,支持32种语言,包括历史档案、技术手册和模糊扫描件。处理整本书(高达1M token)用于法律研究、学术分析或企业知识管理。


无代码开发与UI自动化:上传设计原型以生成生产级代码,或让视觉代理自主导航应用程序——填写表格、测试工作流、执行多步骤任务。加速原型化、QA自动化,并减少手动编码时间。


STEM教育与研究:分析科学图表和数学方程,提供逐步推理。Thinking版本分解复杂问题,解释因果关系,并为学生、研究人员和教育工作者提供基于证据的答案。


立即开始


  1. 1. 探索:Qwen3-VL系列SiliconFlow模型广场中尝试。

  2. 2. 集成:使用我们的OpenAI兼容API。在SiliconFlow API文档中探索完整的API规范。


import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "Qwen/Qwen3-VL-235B-A22B-Thinking",    "messages": [        {            "role": "user",            "content": [                {                    "type": "image_url",                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recukL5nm686G1.png"}                },                {                    "type": "text",                    "text": "What's this?"                }            ]        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.request("POST", url, json=payload, headers=headers)print(response.text)
import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "Qwen/Qwen3-VL-235B-A22B-Thinking",    "messages": [        {            "role": "user",            "content": [                {                    "type": "image_url",                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recukL5nm686G1.png"}                },                {                    "type": "text",                    "text": "What's this?"                }            ]        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.request("POST", url, json=payload, headers=headers)print(response.text)
import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "Qwen/Qwen3-VL-235B-A22B-Thinking",    "messages": [        {            "role": "user",            "content": [                {                    "type": "image_url",                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recukL5nm686G1.png"}                },                {                    "type": "text",                    "text": "What's this?"                }            ]        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.request("POST", url, json=payload, headers=headers)print(response.text)


无论您是在构建多模态代理、自动化UI工作流,还是分析数小时的视频,Qwen3-VL都能赋予您看、理解和推理的能力。

立即使用SiliconFlow的生产级API开始,并将视觉智能融入您的工作流!


业务或销售咨询 →

立即加入我们的Discord社区 →

在X上关注我们以获取最新动态 →

浏览SiliconFlow上的所有可用模型 →



准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?