模型

产品

定价

文档

博客

关于

联系

🎉 gemma-4-12B-it 可以在 SiliconFlow 上使用。现在就尝试吧。

模型

Qwen3-VL-235B-A22B-Instruct

Qwen3-VL-235B-A22B-Instruct

API 参考

关于Qwen3-VL-235B-A22B-Instruct

Qwen3-VL-235B-A22B-Instruct 是一个 2350 亿参数的专家混合（MoE）Vision-语言模型，具有 220 亿激活参数。它是 Qwen3-VL-235B-A22B 的指令调优版本，并且为 Chat 应用程序对齐。

用例

探索Qwen3-VL-235B-A22B-Instruct的高级Vision-language功能和Multimodal推理如何解决复杂的现实问题。

AI UI自动化

通过视觉理解界面和执行操作，自动化跨Web和移动应用程序的复杂UI任务。

用例示例：

"自动导航新电商网站，加入购物车，并通过解释视觉线索和与UI元素交互完成结账，无需显式API调用。"

视觉代码生成

将视觉设计（草图、模型或Video演示）直接转换为功能性Web组件或图表。

用例示例：

"将手绘的网页线框图转化为响应式HTML/CSS/JS代码，包括交互元素，大大加速前端开发工作流程。"

高级Video分析

分析冗长的Video素材以获取特定事件、对象或动作的详细摘要和见解，支持以秒为单位的索引。

用例示例：

"处理8小时的监控摄像头视频，识别所有未经授权的访问实例，跟踪特定人员，并生成带有视觉证据的时间戳报告。"

Multimodal文档AI

从复杂、视觉丰富的文档中提取、分析和推理信息，包括扫描Image、报告和工程图。

用例示例：

"解析多页工程蓝图，提取组件清单，识别零件之间的空间关系，并基于视觉和Text数据标记潜在的设计不一致性。"

机器人空间推理

使AI系统能够通过准确感知对象位置、方向和空间关系来理解和与物理环境互动。

用例示例：

"引导机器人手臂精确抓取并放置形状不规则的物体，从混乱的箱子中，在实时中适应不同的视点和部分遮挡。"

元数据

创建

2025年10月4日

许可证

APACHE-2.0

提供者

Qwen

HuggingFace

Qwen3-VL-235B-A22B-Instruct

规格

州

Deprecated

建筑

Mixture of Experts

校准的

是

专家混合

是

总参数

235B

激活的参数

22B

推理

不

精度

FP8

上下文长度

262K

最大输出长度

262K

与其他模型进行比较

看看这个模型与其他模型相比表现如何。

Qwen

chat

Qwen3-VL-32B-Instruct

发行日期：2025年10月21日

上下文长度：

262K

最大输出长度：

262K

Input:

0.2

/ M Tokens

Output:

0.6

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Thinking

发行日期：2025年10月21日

上下文长度：

262K

最大输出长度：

262K

Input:

0.2

/ M Tokens

Output:

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Instruct

发行日期：2025年10月15日

上下文长度：

262K

最大输出长度：

262K

Input:

0.18

/ M Tokens

Output:

0.68

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Thinking

发行日期：2025年10月15日

上下文长度：

262K

最大输出长度：

262K

Input:

0.18

/ M Tokens

Output:

2.0

/ M Tokens

Qwen

chat