2026年1月29日消息:

阿里千问模型Qwen3-Max-Thinking正式发布

站长之家(ChinaZ.com)1月27日 消息:阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,这一国内最强AI大模型在多项权威评测中创下全球新纪录。

Qwen3-Max-Thinking是阿里规模最大、能力最强的千问推理模型。其总参数量超万亿(1T),预训练数据量高达36T Tokens,如此庞大的规模为模型性能的飞跃奠定了坚实基础。通过总参数、强化学习、推理计算的极致规模扩展,该模型在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试中刷新全球纪录,展现出强大的实力。

此前,预览版Qwen3-Max-Thinking就已在数学推理领域崭露头角,斩获AIME25和HMMT25的国内首个双满分,其推理性能令人惊艳。在此基础上,阿里通义团队对正式版进行了更大规模的强化学习后训练,进一步提升了模型的整体性能。在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了数项最佳表现(SOTA)纪录,整体性能可与GPT-5.2-Thinking-xhigh、Claude Opus4.5和Gemini3Pro相媲美。

在模型推理能力提升方面,千问新模型采用了全新的测试时扩展(Test-time Scaling)机制。传统的推理时计算往往简单增加并行推理路径,重复推导已知结论,导致冗余推理、效率低下。而千问的新机制可对之前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。基于这一推理技术创新,千问推理性能和推理效率大幅提升。例如,在“启用工具的人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5和Gemini3Pro的45.8,创下当前所有模型的最高分。

面向即将到来的智能体Agent时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。通义团队在完成初步的工具使用微调后,对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使模型拥有更智能结合工具进行思考的能力。这种自适应的工具调用能力可在QwenChat上完整体验,模型能够自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士水平的回答,更加贴合用户心意、智能且流畅。同时,模型幻觉也大幅降低,为解决真实复杂任务奠定了基础。

目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据悉,千问APP也即将接入新模型,届时所有用户都可免费体验这款千问最强模型,感受其带来的智能新体验。

Qwen Chat:https://chat.qwen.ai/

百炼API:https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

千问APP网页版:https://www.qianwen.com/

(举报)

返回顶部