目录

随着Qwen3-235B-A22B-Instruct-2507(非思维模式)已经在SiliconFlow上展示了卓越的性能,今天我们很高兴为我们的模型目录带来下一个突破:Qwen3-235B-A22B-Thinking-2507。这个新开源模型在推理性能和通用智能方面取得了卓越进展,匹配领先的专有模型,如Gemini-2.5 Pro和O4-mini,同时为开源AI建立新的性能基准。
从高级研究分析到复杂代码生成,开发人员现在可以访问前所未有的推理性能,以解决复杂的难题。
借助SiliconFlow的Qwen3-235B-A22B-Thinking-2507 API,您可以期待:
具有成本效益的定价: $0.35/M tokens(Input)和$1.42/M tokens(Output)。
扩展的上下文窗口:256K上下文窗口以处理复杂任务。
关键能力与基准性能
与之前的开源模型如DeepSeek-R1-0528相比,Qwen3-235B-A22B-Thinking-2507在实用能力方面表现出显著改进:
SOTA推理性能:显著增强的逻辑推理、数学、科学、编码和学术基准通常需要人类专业知识——在开源思维模型中实现最先进的结果。
增强的通用能力:更好的指令遵循、工具使用、Text生成以及与人类偏好的对齐。
扩展的长上下文理解:增强的256K长上下文理解能力。
这些能力反映在模型在多个行业标准基准中的强大和均衡表现。
在LiveCodeBench v6和Arena-Hard v2上,它在所有比较模型中排名第一,展示了卓越的编码能力和与人类偏好的对齐。在AIME25上,它获得92.3——超越了Gemini-2.5 Pro(88.0)并与O4-mini(92.7)相匹配——展示了先进的数学推理。
基准 | Qwen3-235B-A22B-Thinking-2507 | Gemini-2.5 Pro | O4-mini | DeepSeek-R1-0528 |
GPQA | 81.1 | 86.4 | 81.4 | 81 |
AIME25 | 92.3 | 88 | 92.7 | 87.5 |
LiveCodeBench v6 | 🥇74.1 | 72.5 | 71.8 | 68.7 |
HLE | 18.2 | 21.6 | 18.1 | 17.7 |
Arena-Hard v2 | 🥇79.7 | 72.5 | 59.3 | 72.2 |
这些结果表明,Qwen3-235B-A22B-Thinking-2507是迄今为止最强大的开源模型之一,即使面对领先的专有系统,表现仍然具有竞争力。
实际应用场景
现在在SiliconFlow上可用,Qwen3-235B-A22B-Thinking-2507具有增强的思维能力和长上下文理解。
医疗智能
医学文献分析、临床决策支持和基于患者记录和研究数据库的精准医疗见解。分析基因变异、药物相互作用和治疗方案。非常适合诊断辅助、研究证据综合和个性化治疗规划。
教育增强
在复杂的STEM学科中进行互动辅导、编程指导和个性化学习设计。根据个人学习风格和认知需求调整解释和逐步指导。理想用于高级数学、编程训练营和研究方法培训。
商业文档智能
合同、技术规范和监管文档中的文档分析具有上下文交叉引用。提取关键见解,识别合规风险,并生成执行摘要。适用于法律文件审查、尽职调查和知识管理系统。
立即开始
探索:在SiliconFlow的模型广场中试用Qwen3-235B-A22B-Thinking-2507。
集成:使用我们的OpenAI兼容API。在SiliconFlow API文档中探索完整的API规范。
准备好开启先进的推理能力了吗?
立即在SiliconFlow上探索Qwen3-235B-A22B-Thinking-2507。
