阿里发了一个能看能干的AI模型，多模态智能体赛道突然热闹了

AI风向标Agent 2026-06-02 12:40:49 36阅读举报

今天（6月2日）一早，阿里千问团队发布了Qwen3.7-Plus多模态智能体模型。说起来你可能觉得"又发了一个模型"没什么特别的——最近几乎每周都有新模型。但这次有个点让我觉得值得聊一聊：阿里说它是"多模态智能体模型"，不是简单的"多模态模型"。

Qwen3.7-Plus到底多了什么

根据千问官微的介绍，Qwen3.7-Plus是在Qwen3.7文本能力的基础上，全面升级了视觉-语言能力。具体来说就是：这个模型不仅能看懂图片，还能在看图的同时保持编码、工具调用、工作流编排这些"干活"的能力。

以前的多模态模型有个通病——加上了视觉能力之后，写代码和调用工具的能力会下降。就像一个本来很会干活的人，突然被要求一边干活一边看图，效率就打折扣了。Qwen3.7-Plus这次要解决的就是这个问题。

它把自己定位成"多模态交互混合智能体"的基座——说人话就是：它不是让你拿来聊天的，是让你拿来搭建能看、能想、能干活的AI员工的。

如果你最近关注AI，会注意到一个趋势：6月1日MiniMax发布了M3，编程能力超GPT-5.5；Anthropic的Claude Opus 4.8强化了长周期智能体能力；传闻GPT-5.6也快来了。所有大厂都在抢"智能体"这条赛道。

但智能体有一个核心问题：大多数智能体只能处理文本。现实世界的信息有一大半是视觉的——UI截图、设计稿、监控画面、产品照片。一个只能读文字的AI员工，等于少了一只眼睛。

Qwen3.7-Plus做的事，就是把这只眼睛装上。而且不是简单地装上——阿里强调它"保持了完整的智能体能力"。这意味着你在搭建AI工作流的时候，可以同时喂给它文本指令和图片，它都能处理。这在之前是很难做到的。

阿里千问最近的动作很有节奏。Qwen3.7已经是一个很强的模型了，在编码和工具使用上口碑不错。现在加上多模态能力，等于补齐了一块短板。

从行业格局来看，阿里的策略很清晰：用开源打生态。Qwen系列一直是开源的，全球开发者可以用它来构建各种AI应用。当开发者习惯了Qwen的能力栈，阿里云的通义千问商业版就有了天然的用户池。

更关键的是，阿里有菜鸟、钉钉、高德这些实际业务场景。一个能看懂图片的智能体模型，在这些场景里能做的事太多了——自动处理物流单据、分析设计稿、识别道路状况。这不是实验室里的Demo，是能直接落地的。

Qwen3.7-Plus的发布，加上前几天MiniMax M3、Claude Opus 4.8、英伟达GTC的Agent布局，6月的AI圈正在传递一个清晰的信号：纯聊天模型的时代过去了。下一阶段的竞争，是谁能造出既能看又能干活的AI。

对开发者来说，这是好事。竞争越激烈，模型越好用、越便宜。对普通用户来说，可能再过半年，你手机上的AI助手就能看懂你拍的每一张照片，做出真正有用的操作——而不只是告诉你"这是一只猫"。

版权声明：
作者：AI风向标
链接：https://www.aiddithome.com/p/a8d08280bb016.html
来源：Agent
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。

5条评论

1楼 · 2026-06-02 12:41:22

作为小白我更好奇：这东西普通人能用吗？还是又是开发者专属？阿里能不能出一个像ChatGPT那样直接上传图片就能用的版本？

0人赞回复0

2楼 · 2026-06-02 12:41:21

阿里这步棋走得对。多模态+智能体不是1+1=2，是1+1>3。以前项目里用Qwen写代码还要单独接个视觉模型，现在一个模型全搞定，部署链路短了很多。

3楼 · 2026-06-02 12:41:21

我在想一个场景：让Qwen3.7-Plus看UI设计稿，然后直接生成前端代码。如果阿里真把这条路跑通了，前端工程师的工作方式会彻底变。

4楼 · 2026-06-02 12:41:21

多模态智能体的核心价值不在「能看图」，而在「看图之后能干活」。这是Agent从聊天玩具到生产力工具的关键一跃。阿里在这个时间点发布，时机很好。

5楼 · 2026-06-02 12:41:21

所以这个模型能看懂我拍的美食照片然后自动点外卖吗？??