千问3.7登顶国产第一自主优化芯片性能提10倍

来源：网络更新时间：2026-05-20 14:39:31点击：

5月20日阿里云峰会上，阿里巴巴发布了全新千问旗舰模型Qwen3.7-Max，这款国产模型在Arena全球盲测中冲到了国产第一，性能已经追平海外头部模型。但最让我关注的不是排名，而是它在完全陌生的国产芯片上自主完成了内核优化。

大模型自我进化的拐点，可能比我们预想的来得更快。当AI可以自己优化硬件推理性能，整个行业的开发逻辑会发生什么变化？

发布会舞台与Qwen3.7-Max展示大屏 · 峰会现场展示Qwen3.7-Max智能体与基础能力

三个月三次迭代国产模型性能天花板被抬高

阿里大模型的迭代速度，这次超出了很多人的预期。三个月时间里，千问旗舰连更3.5、3.6、3.7三个版本，平均不到一个月就推一个新版，这种稳定的高密度迭代在行业里并不多见。

这次冲顶的Qwen3.7-Max，核心设计方向完全对准了当前最热门的智能体Agent赛道，从底层架构开始就是为长周期复杂自主任务量身定做的。

在多个权威第三方评测中，这款模型的表现已经超过了绝大多数国产竞品，甚至在推理、编程等核心测评中，成绩超过了Claude-Opus4.6。

模型推理速度提升对比折线图 · Qwen3.7 Max等模型推理加速倍数对比

从Arena全球盲测总榜的排名来看，Qwen3.7-Max已经摸到了全球第一梯队的门槛，和GPT、Claude、Gemini的最强版性能接近，结束了国产旗舰在第二梯队徘徊的局面。

千问3.7的突破，不止是单个模型性能的提升，更是国产大模型研发节奏进入快车道的信号。

过去几年，国产大模型更多是在追着海外头部的节奏走，新品发布间隔普遍在两三个月以上，现在阿里能做到一个月一更，说明底层研发体系已经搭建完成，进入了稳定输出的阶段。

35小时自主迭代陌生芯片上跑出10倍加速

这次发布最震撼的测试，不是评测榜单上的分数，而是那场自主优化新芯片推理内核的实战。

阿里把训练时从未接触过的平头哥真武M890芯片扔给Qwen3.7-Max，没有提供硬件文档，没有性能分析数据，甚至连参考示例内核都没给，只留了任务描述和基础参考实现，让模型从零开始完成优化。

换做人类工程师，拿到全新架构的芯片也要先啃几天文档，再反复调试参数，这个任务至少要一周以上才能完成。但Qwen3.7-Max硬生生自己跑了35小时，完成了432次内核评估、1158次工具调用，从头走完了编写、编译、测试、迭代的全部流程。

Text Arena模型总榜截图 · Qwen3.7-max-preview位列总榜第6

更惊人的是结果：优化后的推理内核，比官方提供的SGLang Triton参考实现快了整整10倍。而且模型在运行超过30小时后，还主动发现了新的优化点，甚至发起了一次关键的架构重设计。

这不是简单的完成任务，这是大模型自主进化的一次预演。

过去我们总说，大模型的能力上限是人类喂的数据和调的参数，模型本身只是执行人类设计好的逻辑。但这次测试证明，大模型已经可以在完全陌生的领域，通过不断自我调试，找到比人类初始方案更好的结果。

从模型到基座智能体时代的底层逻辑变了

这次千问3.7的发布，阿里同步推出了全新的“芯-云-模型-推理”全链路技术体系，这个信号其实比模型本身更值得关注。

千问3.7不是一个单独的聊天机器人模型，它是为所有智能体应用准备的通用底座：它可以适配Claude Code、OpenClaw、Qwen Code等多种智能体框架，不管是哪种生态都能稳定输出能力。

在企业办公场景，Qwen3.7-Max驱动的智能体已经可以实现完整工作流自动化，过去专业团队要花一到两周才能完成的复杂项目，现在数小时就能交付闭环。在SpreadSheetBench-v1基准测试中，它拿到了87分的顶尖成绩。

编程智能体：从前端开发到多文件工程全流程自主完成，胜过多个海外头部模型
通用智能体：跨框架泛化能力拉满，多智能体协作能应对企业级复杂任务
多模态扩展：后续还会推出支持视觉理解的多模态版本，覆盖更多应用场景

现在行业里都在说Agentic时代要来了，但大部分模型还是在原有架构上做加法，没有从底层重新设计。千问3.7从一开始就是为智能体长周期任务设计的，相当于提前把地基打好了。

当模型可以连续几十个小时自主运行，自己发现问题、解决问题、优化方案，很多过去需要人类团队协作完成的工作，未来真的可以交给AI独立完成。

国产大模型的新赛道从跟跑到局部领跑

过去我们聊国产大模型，总绕不开“和海外顶级模型还有差距”这个话题。这次千问3.7的发布，至少在智能体和编程这个赛道，国产模型已经摸到了局部领跑的位置。

更关键的是，这次测试打通了“大模型+国产芯片”自主优化的路径：AI可以自己在新的国产硬件上完成适配优化，不需要人类工程师从头摸索，这相当于给国产芯片和国产大模型的协同加速找到了新的方法。

千问3.7给行业扔出了一个新的命题：当大模型可以自己优化自己，技术迭代的速度会变成原来的几倍？

现在来看，这个答案还需要时间验证，但有一点可以确定：国产大模型早就过了“从0到1”的阶段，现在已经进入了“从1到N”的深耕期，在很多细分领域，我们的迭代速度和落地能力已经走到了前面。未来大模型的自我进化，会比所有人预想的都要更快。

责任编辑：小编

上一篇 : 张凌赫代言！拯救者手机归来，还有联想moto大小折叠新机发布下一篇 : 第九届5·20世界蜜蜂日来了！北京发出倡议：保护蜜蜂生态，共筑绿色未来

千问3.7登顶国产第一自主优化芯片性能提10倍

三个月三次迭代国产模型性能天花板被抬高

35小时自主迭代陌生芯片上跑出10倍加速

从模型到基座智能体时代的底层逻辑变了

国产大模型的新赛道从跟跑到局部领跑

相关阅读

推荐文章

热门文章

千问3.7登顶国产第一 自主优化芯片性能提10倍

三个月三次迭代 国产模型性能天花板被抬高

35小时自主迭代 陌生芯片上跑出10倍加速

从模型到基座 智能体时代的底层逻辑变了

国产大模型的新赛道 从跟跑到局部领跑

相关阅读

推荐文章

热门文章

千问3.7登顶国产第一自主优化芯片性能提10倍

三个月三次迭代国产模型性能天花板被抬高

35小时自主迭代陌生芯片上跑出10倍加速

从模型到基座智能体时代的底层逻辑变了

国产大模型的新赛道从跟跑到局部领跑