过去一年,大模型行业最常见的问题是:“谁的模型更强?”
到了2026年,这个问题正在被改写。
企业客户越来越少关心参数规模,也不再单纯比较模型排行榜上的分数。他们更关注另一件事——模型究竟能不能完成工作。
在这样的背景下,阿里于6月2日正式发布Qwen3.7-Plus多模态智能体模型。按照官方介绍,新模型在Qwen3.7文本能力基础上升级了视觉与语言理解能力,同时保留编码、工具调用以及复杂工作流执行等智能体特征。
表面上看,这是一轮常规产品迭代。
但如果把它放进当前大模型产业的发展轨迹中观察,会发现背后的竞争逻辑已经发生变化。
过去两年,大模型行业经历了两个明显阶段。
第一阶段是“能力竞赛”。
无论是生成文本、数学推理还是代码编写,各家公司都在努力提升模型基础能力。行业关注焦点集中在参数规模、训练数据以及评测成绩上。
第二阶段则是“应用竞赛”。
当模型能力逐渐趋近后,市场开始追问一个现实问题:这些能力究竟能转化成什么生产力?
这也是智能体(Agent)概念迅速升温的原因。
因为企业并不需要一个只会聊天的模型。
他们需要的是一个能够理解任务、调用工具、处理文件、分析图像、编写代码并最终交付结果的数字员工。
从这个角度看,Qwen3.7-Plus的升级重点其实非常明确。
视觉能力的增强意味着模型能够处理更多非结构化信息。现实工作场景中,大量内容并非纯文本,而是表格、图片、图纸、文档截图甚至视频画面。
如果模型只能阅读文字,其应用边界会受到明显限制。
而当视觉理解与语言推理融合后,AI开始具备接近人类处理信息的方式。
看懂内容,再执行任务。
这才是智能体发展的核心逻辑。
事实上,过去半年全球AI行业都在朝这个方向演进。
从OpenAI推动复杂任务自动执行,到Google DeepMind强化多模态能力,再到Anthropic持续优化代码与工具调用能力,头部厂商的产品路线开始出现趋同。
行业共识正在形成:未来的竞争不只是模型回答问题的能力,而是解决问题的能力。
对于阿里而言,这种转向还有更现实的商业考量。
与消费级聊天产品相比,企业级智能体拥有更清晰的付费逻辑。
企业愿意为效率提升买单。
如果一个智能体能够替代部分数据分析工作、自动完成软件开发流程,或者帮助运营团队处理复杂任务,其价值远高于简单的信息检索。
因此,大模型厂商正在从“卖模型”转向“卖生产力”。
这也是为什么近年来工具调用(Tool Use)、工作流自动化以及多模态交互成为产品更新中的高频关键词。
从产业链角度来看,多模态智能体的发展还会进一步拉动算力需求。
因为处理图像、视频等内容所消耗的计算资源远高于纯文本推理。
这意味着云计算平台、AI芯片厂商以及数据中心运营商都将持续受益。
某种程度上,大模型行业正在重复互联网时代的发展路径。
最初大家关注的是浏览器和网页;后来竞争转向搜索、社交和电商;最终真正创造价值的是那些深入具体场景的应用。
AI也正在经历类似过程。
模型能力逐渐成为基础设施,而智能体则成为连接技术与商业需求的新入口。
Qwen3.7-Plus的发布并不只是一次模型升级。
它反映出一个越来越清晰的行业趋势:大模型正在从“会思考”走向“会做事”。
当越来越多AI系统开始具备理解、规划、执行和反馈的完整能力时,未来企业采购的可能不再是一个模型接口,而是一支由数字智能体组成的新型生产力团队。
而围绕这一方向的竞争,才刚刚进入深水区。