阿里发布千问旗舰模型Qwen3.7-Max – 中国前沿资讯

站长之家（ChinaZ.com）5月20日消息:阿里巴巴在今日开幕的2026阿里云峰会上，投下了一枚重磅炸弹——全新一代千问旗舰模型Qwen3.7-Max正式亮相。在第三方机构Arena公布的全球大模型盲测总榜中，这款模型超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国产竞品，与GPT、Claude、Gemini等最强模型同处第一梯队，成功登顶国产模型榜首。

这已经是千问旗舰模型在短短三个月内完成的第三次重大迭代，从3.5到3.6再到3.7，阿里大模型的研发节奏呈现出明显的加速态势。此次发布的Qwen3.7-Max，围绕智能体场景进行了全新设计，在多个核心维度实现了突破。

编程能力上，它在SWE-Pro、SWE-Multilingual等编程智能体测评中均取得领先，其中在Terminal Bench2.0-Terminus测试中，以69.7的得分超越了DeepSeek-v4-pro-Max和Claude-Opus4.6。在衡量通用智能体现实能力的MCP-Atlas、MCP-Mark等测试中，其表现同样优于GLM5.1、Kimi-K2.6，刷新了国产模型的上限。

推理层面，Qwen3.7-Max在GPQA Diamond、HLE、HMMT2026Feb等核心测评中，不仅超越了所有国产模型，也压过了Claude-Opus4.6。通用能力上，它的指令遵循IFBench评测得分达到79.1分，创下新高，多语言评测同样处于领先地位。

官方展示的一项实战任务测试，则更直观地暴露了它的自主性。在一个模型从未接触过的全新芯片平台——平头哥真武M890芯片上，Qwen3.7-Max在没有任何性能分析数据、硬件文档或示例内核的情况下，从一个完全空白的空间出发，自主完成了推理内核的优化任务。整个过程持续了整整35个小时，模型独立进行了432次内核评估和1158次工具调用，全程自主完成了编写、编译、性能分析与迭代改进。

最终，它所优化的推理内核，相比SGLang Triton官方参考实现，取得了高达10倍的加速。测试轨迹显示，模型在独立运行超过30小时后，依然能发现有效的优化点，甚至主动发起了一次关键的架构重设计。

在智能体能力方面，Qwen3.7-Max展现出跨框架的泛化能力，在Claude Code、OpenClaw、Qwen Code等不同框架下都能稳定输出。通过MCP集成和多智能体协作，它在办公自动化基准SpreadSheetBench-v1上取得了87分的顶尖水平。

阿里云同时宣布，Qwen3.7-Max的API即将上线百炼平台。后续，覆盖从编程智能体到视觉智能体全场景需求的Qwen3.7-Plus等版本，也将陆续推出。这台新旗舰，不仅要在测评数据上争第一，更想在真实任务里证明自己。

（举报）

相关文章

雷军回应小米YU7GT定价：有点小贵 定位豪华车

字节系重兵入汽车，火山引擎的胜算有几分？

江西加速“人工智能+交通”破圈融合

iPhone绝版配件回归 448元握把支架重新上架

小米17 Max以旧换新4大权益公布

这届年轻人，爱上“只租不买”

雷军回应小米YU7GT定价：有点小贵定位豪华车