目錄
隨著Qwen3-235B-A22B-Instruct-2507(非思考模式)已經在SiliconFlow上展示出卓越的性能,今天我們很高興為模型目錄帶來下一個突破:Qwen3-235B-A22B-Thinking-2507。這個新開源模型在推理性能和一般智能方面取得了非凡的進展,與領先的專有模型如Gemini-2.5 Pro和O4-mini相媲美,同時為開源AI建立了新的性能基準。
從高級研究分析到複雜的代碼生成,開發者現在可以訪問前所未有的推理性能,用於複雜的問題解決任務。
有了SiliconFlow的Qwen3-235B-A22B-Thinking-2507 API,您可以期待:
成本效益定價: $0.35/百萬個token(輸入)和$1.42/百萬個token(輸出)。
擴展的上下文窗口: 256K上下文窗口,用於複雜任務。
關鍵功能和基準性能
相比於之前的開源模型DeepSeek-R1-0528,Qwen3-235B-A22B-Thinking-2507在實際能力上顯示出顯著的改進:
SOTA推理性能:顯著提升的邏輯推理、數學、科學、編碼和學術基準,這些通常需要人類專業知識的領域——在開源思考模型中實現最先進的結果。
增強的通用能力:更好的指令追蹤、工具使用、文本生成和符合人類偏好。
擴展的長上下文理解:增強的256K長上下文理解能力。
這些能力反映在模型在多個行業標準基準中的強勁和平衡性能。
它在比較的所有模型中在LiveCodeBench v6和Arena-Hard v2中排名第一,展示了卓越的代碼能力和符合人類偏好。在AIME25中,它達到92.3 — 超越Gemini-2.5 Pro (88.0),並匹配O4-mini(92.7)——展示高級數學推理。
基準 | Qwen3-235B-A22B-Thinking-2507 | Gemini-2.5 Pro | O4-mini | DeepSeek-R1-0528 |
GPQA | 81.1 | 86.4 | 81.4 | 81 |
AIME25 | 92.3 | 88 | 92.7 | 87.5 |
LiveCodeBench v6 | 🥇74.1 | 72.5 | 71.8 | 68.7 |
HLE | 18.2 | 21.6 | 18.1 | 17.7 |
Arena-Hard v2 | 🥇79.7 | 72.5 | 59.3 | 72.2 |
這些結果表明,Qwen3-235B-A22B-Thinking-2507是迄今為止最有能力的開源模型之一,其性能甚至與領先的專有系統相匹敵。
現實應用場景
現在在SiliconFlow提供的Qwen3-235B-A22B-Thinking-2507具有增強的思維能力和長上下文理解。
醫療智能
醫學文獻分析、臨床決策支持和從患者記錄和研究數據庫中獲得精準醫學見解。分析遺傳變異、藥物相互作用和治療方案。適合診斷協助、研究證據綜述和個性化治療計劃。
教育增強
複雜STEM學科的互動教學、編程指導和個性化學習設計。根據個人學習風格和認知需求調整解釋和步驟指導。理想用於高級數學、編程訓練營和研究方法培訓。
商業文檔智慧
跨合同、技術規範和監管文件的文檔分析,具有上下文交叉參考。提取關鍵見解、識別合規風險並生成執行概要。適用於法律文件審查、盡職調查和知識管理系統。
立即開始
探索:在SiliconFlow playground中試用Qwen3-235B-A22B-Thinking-2507。
整合:使用我們的OpenAI兼容API。在SiliconFlow API文件中查看完整的API規範。
準備好釋放高級推理能力了嗎?
今天就探索在SiliconFlow上的Qwen3-235B-A22B-Thinking-2507。

