2026年5月20日消息:

阿里发布千问旗舰模型Qwen3.7-Max

最新高纬度讯息,请点击下图围观:

站长之家(ChinaZ.com)5月20日 消息:阿里巴巴在今日开幕的2026阿里云峰会上,投下了一枚重磅炸弹——全新一代千问旗舰模型Qwen3.7-Max正式亮相。在第三方机构Arena公布的全球大模型盲测总榜中,这款模型超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国产竞品,与GPT、Claude、Gemini等最强模型同处第一梯队,成功登顶国产模型榜首。

这已经是千问旗舰模型在短短三个月内完成的第三次重大迭代,从3.5到3.6再到3.7,阿里大模型的研发节奏呈现出明显的加速态势。此次发布的Qwen3.7-Max,围绕智能体场景进行了全新设计,在多个核心维度实现了突破。

编程能力上,它在SWE-Pro、SWE-Multilingual等编程智能体测评中均取得领先,其中在Terminal Bench2.0-Terminus测试中,以69.7的得分超越了DeepSeek-v4-pro-Max和Claude-Opus4.6。在衡量通用智能体现实能力的MCP-Atlas、MCP-Mark等测试中,其表现同样优于GLM5.1、Kimi-K2.6,刷新了国产模型的上限。

推理层面,Qwen3.7-Max在GPQA Diamond、HLE、HMMT2026Feb等核心测评中,不仅超越了所有国产模型,也压过了Claude-Opus4.6。通用能力上,它的指令遵循IFBench评测得分达到79.1分,创下新高,多语言评测同样处于领先地位。

官方展示的一项实战任务测试,则更直观地暴露了它的自主性。在一个模型从未接触过的全新芯片平台——平头哥真武M890芯片上,Qwen3.7-Max在没有任何性能分析数据、硬件文档或示例内核的情况下,从一个完全空白的空间出发,自主完成了推理内核的优化任务。整个过程持续了整整35个小时,模型独立进行了432次内核评估和1158次工具调用,全程自主完成了编写、编译、性能分析与迭代改进。

最终,它所优化的推理内核,相比SGLang Triton官方参考实现,取得了高达10倍的加速。测试轨迹显示,模型在独立运行超过30小时后,依然能发现有效的优化点,甚至主动发起了一次关键的架构重设计。

在智能体能力方面,Qwen3.7-Max展现出跨框架的泛化能力,在Claude Code、OpenClaw、Qwen Code等不同框架下都能稳定输出。通过MCP集成和多智能体协作,它在办公自动化基准SpreadSheetBench-v1上取得了87分的顶尖水平。

阿里云同时宣布,Qwen3.7-Max的API即将上线百炼平台。后续,覆盖从编程智能体到视觉智能体全场景需求的Qwen3.7-Plus等版本,也将陆续推出。这台新旗舰,不仅要在测评数据上争第一,更想在真实任务里证明自己。

(举报)

返回顶部