模型

产品

定价

文档

博客

关于

联系

🎉 gemma-4-12B-it 可以在 SiliconFlow 上使用。现在就尝试吧。

模型

Qwen3-VL-8B-Thinking

Qwen3-VL-8B-Thinking

API 参考

关于Qwen3-VL-8B-Thinking

Qwen3-VL-8B-Thinking 是来自 Qwen3 系列的 Vision-语言模型，专为需要复杂推理的场景进行了优化。在这个 Thinking 模式下，模型会在给出最终答案之前进行逐步思考和推理。

用例

探索Qwen3-VL-8B-Thinking的高级多模态推理和逐步思考如何解决各个领域的复杂现实问题。

多模态科学推理

通过分析复杂的视觉和文本科学数据、生成和验证证明，逐步推理起草论文来加速发现。

用例示例：

"分析了显微镜图像和实验数据以推断蛋白质相互作用机制，为一种新的生物通路提供详细的逐步解释。"

视觉代码调试与生成

分析代码、用户界面截图和执行视频，找出逻辑错误、优化性能，并从视觉设计生成代码。

用例示例：

"通过分析应用行为的屏幕录像和相应的JavaScript代码，调试了React Native UI错误，识别出一个微妙的状态管理错误。"

多模态金融洞察

对视觉财务报告、市场图表和文本数据进行多步定量分析，推断因果关系以提供战略性建议。

用例示例：

"分析了一家公司的季度收益报告（PDF扫描件）和股票图表模式，生产出投资论点，详细解释了风险和增长的逐步金融推理。"

视觉系统与文档审计

通过推理视觉和文本格式中逻辑依赖性，审核复杂系统、法律合同或工程图，标记不一致之处。

用例示例：

"审查了一套建筑蓝图和相应的建筑规范，通过逻辑推导发现潜在的结构不一致，并提出更安全的设计修改建议。"

智能用户界面自动化

通过识别元素、理解功能，通过视觉感知和推理跨PC/移动GUI自动化复杂任务。

用例示例：

"通过在旧版CRM系统中视觉导航界面，自动化了数据输入过程，从电子表格中提取信息并将其输入到正确的字段中。"

设计到代码转换

直接从设计模型的Image或Video输入生成功能性网页组件（HTML/CSS/JS）或图表（Draw.io）。

用例示例：

"将手绘的网页线框草图转换为响应式的HTML/CSS布局，并具备基本的JavaScript互动功能，显著加快了前端开发。"

空间意识与机器人技术

使机器人或AR系统能够理解物体位置、视点和遮挡情况，实现复杂的导航和交互。

用例示例：

"引导机械臂精确拾取和放置杂乱箱子中的不规则形状物体，通过对3D位置和潜在遮挡的推理，从单一摄影机源中进行。"

深度视频内容分析

全程回顾和逐秒索引长达数小时的视频内容，提取关键事件、摘要和见解以供各种应用。

用例示例：

"总结了一段长达3小时的公司培训Video，识别所有关键讨论点、发言者变化和行动项目，并提供精确时间戳，创建可搜索索引。"

高级多语言OCR

从具有挑战性的多样化文档中（包括低光、模糊、古文字）提取Text，准确解析复杂文档结构。

用例示例：

"数字化了多语言的历史手稿收藏，准确提取Text并保留原始文档的布局和层次结构，尽管墨迹褪色，纸张老化。"

元数据

创建

2025年10月15日

许可证

APACHE-2.0

提供者

Qwen

HuggingFace

Qwen3-VL-8B-Thinking

规格

州

Deprecated

建筑

Vision-Language Transformer

校准的

不

专家混合

不

总参数

激活的参数

推理

不

精度

FP8

上下文长度

262K

最大输出长度

262K

与其他模型进行比较

看看这个模型与其他模型相比表现如何。

Qwen

chat

Qwen3-VL-32B-Instruct

发行日期：2025年10月21日

上下文长度：

262K

最大输出长度：

262K

Input:

0.2

/ M Tokens

Output:

0.6

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Thinking

发行日期：2025年10月21日

上下文长度：

262K

最大输出长度：

262K

Input:

0.2

/ M Tokens

Output:

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Instruct

发行日期：2025年10月15日

上下文长度：

262K

最大输出长度：

262K

Input:

0.18

/ M Tokens

Output:

0.68

/ M Tokens

Qwen

chat