企业日报

日报头条

分享互联网资讯
企业日报-国内外时事,奇事,新鲜事

千问3.7登顶国产第一 自主优化芯片性能提10倍

更新时间:2026-05-20 14:39:31点击:

5月20日阿里云峰会上,阿里巴巴发布了全新千问旗舰模型Qwen3.7-Max,这款国产模型在Arena全球盲测中冲到了国产第一,性能已经追平海外头部模型。但最让我关注的不是排名,而是它在完全陌生的国产芯片上自主完成了内核优化。

大模型自我进化的拐点,可能比我们预想的来得更快。当AI可以自己优化硬件推理性能,整个行业的开发逻辑会发生什么变化?

发布会舞台与Qwen3.7-Max展示大屏 · 峰会现场展示Qwen3.7-Max智能体与基础能力

三个月三次迭代 国产模型性能天花板被抬高

阿里大模型的迭代速度,这次超出了很多人的预期。三个月时间里,千问旗舰连更3.5、3.6、3.7三个版本,平均不到一个月就推一个新版,这种稳定的高密度迭代在行业里并不多见。

这次冲顶的Qwen3.7-Max,核心设计方向完全对准了当前最热门的智能体Agent赛道,从底层架构开始就是为长周期复杂自主任务量身定做的。

在多个权威第三方评测中,这款模型的表现已经超过了绝大多数国产竞品,甚至在推理、编程等核心测评中,成绩超过了Claude-Opus4.6。

模型推理速度提升对比折线图 · Qwen3.7 Max等模型推理加速倍数对比

从Arena全球盲测总榜的排名来看,Qwen3.7-Max已经摸到了全球第一梯队的门槛,和GPT、Claude、Gemini的最强版性能接近,结束了国产旗舰在第二梯队徘徊的局面。

千问3.7的突破,不止是单个模型性能的提升,更是国产大模型研发节奏进入快车道的信号。

过去几年,国产大模型更多是在追着海外头部的节奏走,新品发布间隔普遍在两三个月以上,现在阿里能做到一个月一更,说明底层研发体系已经搭建完成,进入了稳定输出的阶段。

35小时自主迭代 陌生芯片上跑出10倍加速

这次发布最震撼的测试,不是评测榜单上的分数,而是那场自主优化新芯片推理内核的实战。

阿里把训练时从未接触过的平头哥真武M890芯片扔给Qwen3.7-Max,没有提供硬件文档,没有性能分析数据,甚至连参考示例内核都没给,只留了任务描述和基础参考实现,让模型从零开始完成优化。

换做人类工程师,拿到全新架构的芯片也要先啃几天文档,再反复调试参数,这个任务至少要一周以上才能完成。但Qwen3.7-Max硬生生自己跑了35小时,完成了432次内核评估、1158次工具调用,从头走完了编写、编译、测试、迭代的全部流程。

Text Arena模型总榜截图 · Qwen3.7-max-preview位列总榜第6

更惊人的是结果:优化后的推理内核,比官方提供的SGLang Triton参考实现快了整整10倍。而且模型在运行超过30小时后,还主动发现了新的优化点,甚至发起了一次关键的架构重设计。

这不是简单的完成任务,这是大模型自主进化的一次预演。

过去我们总说,大模型的能力上限是人类喂的数据和调的参数,模型本身只是执行人类设计好的逻辑。但这次测试证明,大模型已经可以在完全陌生的领域,通过不断自我调试,找到比人类初始方案更好的结果。

从模型到基座 智能体时代的底层逻辑变了

这次千问3.7的发布,阿里同步推出了全新的“芯-云-模型-推理”全链路技术体系,这个信号其实比模型本身更值得关注。

千问3.7不是一个单独的聊天机器人模型,它是为所有智能体应用准备的通用底座:它可以适配Claude Code、OpenClaw、Qwen Code等多种智能体框架,不管是哪种生态都能稳定输出能力。

在企业办公场景,Qwen3.7-Max驱动的智能体已经可以实现完整工作流自动化,过去专业团队要花一到两周才能完成的复杂项目,现在数小时就能交付闭环。在SpreadSheetBench-v1基准测试中,它拿到了87分的顶尖成绩。

  • 编程智能体:从前端开发到多文件工程全流程自主完成,胜过多个海外头部模型

  • 通用智能体:跨框架泛化能力拉满,多智能体协作能应对企业级复杂任务

  • 多模态扩展:后续还会推出支持视觉理解的多模态版本,覆盖更多应用场景

现在行业里都在说Agentic时代要来了,但大部分模型还是在原有架构上做加法,没有从底层重新设计。千问3.7从一开始就是为智能体长周期任务设计的,相当于提前把地基打好了。

当模型可以连续几十个小时自主运行,自己发现问题、解决问题、优化方案,很多过去需要人类团队协作完成的工作,未来真的可以交给AI独立完成。

国产大模型的新赛道 从跟跑到局部领跑

过去我们聊国产大模型,总绕不开“和海外顶级模型还有差距”这个话题。这次千问3.7的发布,至少在智能体和编程这个赛道,国产模型已经摸到了局部领跑的位置。

更关键的是,这次测试打通了“大模型+国产芯片”自主优化的路径:AI可以自己在新的国产硬件上完成适配优化,不需要人类工程师从头摸索,这相当于给国产芯片和国产大模型的协同加速找到了新的方法。

千问3.7给行业扔出了一个新的命题:当大模型可以自己优化自己,技术迭代的速度会变成原来的几倍?

现在来看,这个答案还需要时间验证,但有一点可以确定:国产大模型早就过了“从0到1”的阶段,现在已经进入了“从1到N”的深耕期,在很多细分领域,我们的迭代速度和落地能力已经走到了前面。未来大模型的自我进化,会比所有人预想的都要更快。

推荐文章