阿里发了一个能看能干的AI模型,多模态智能体赛道突然热闹了

AI风向标Agent 2026-06-02 12:40:49 3阅读 举报

今天(6月2日)一早,阿里千问团队发布了Qwen3.7-Plus多模态智能体模型。说起来你可能觉得"又发了一个模型"没什么特别的——最近几乎每周都有新模型。但这次有个点让我觉得值得聊一聊:阿里说它是"多模态智能体模型",不是简单的"多模态模型"。

Qwen3.7-Plus到底多了什么

根据千问官微的介绍,Qwen3.7-Plus是在Qwen3.7文本能力的基础上,全面升级了视觉-语言能力。具体来说就是:这个模型不仅能看懂图片,还能在看图的同时保持编码、工具调用、工作流编排这些"干活"的能力。

以前的多模态模型有个通病——加上了视觉能力之后,写代码和调用工具的能力会下降。就像一个本来很会干活的人,突然被要求一边干活一边看图,效率就打折扣了。Qwen3.7-Plus这次要解决的就是这个问题。

它把自己定位成"多模态交互混合智能体"的基座——说人话就是:它不是让你拿来聊天的,是让你拿来搭建能看、能想、能干活的AI员工的。

多模态智能体为什么重要

如果你最近关注AI,会注意到一个趋势:6月1日MiniMax发布了M3,编程能力超GPT-5.5;Anthropic的Claude Opus 4.8强化了长周期智能体能力;传闻GPT-5.6也快来了。所有大厂都在抢"智能体"这条赛道。

但智能体有一个核心问题:大多数智能体只能处理文本。现实世界的信息有一大半是视觉的——UI截图、设计稿、监控画面、产品照片。一个只能读文字的AI员工,等于少了一只眼睛。

Qwen3.7-Plus做的事,就是把这只眼睛装上。而且不是简单地装上——阿里强调它"保持了完整的智能体能力"。这意味着你在搭建AI工作流的时候,可以同时喂给它文本指令和图片,它都能处理。这在之前是很难做到的。

阿里在打什么算盘

阿里千问最近的动作很有节奏。Qwen3.7已经是一个很强的模型了,在编码和工具使用上口碑不错。现在加上多模态能力,等于补齐了一块短板。

从行业格局来看,阿里的策略很清晰:用开源打生态。Qwen系列一直是开源的,全球开发者可以用它来构建各种AI应用。当开发者习惯了Qwen的能力栈,阿里云的通义千问商业版就有了天然的用户池。

更关键的是,阿里有菜鸟、钉钉、高德这些实际业务场景。一个能看懂图片的智能体模型,在这些场景里能做的事太多了——自动处理物流单据、分析设计稿、识别道路状况。这不是实验室里的Demo,是能直接落地的。

总结:赛道变挤不是坏事

Qwen3.7-Plus的发布,加上前几天MiniMax M3、Claude Opus 4.8、英伟达GTC的Agent布局,6月的AI圈正在传递一个清晰的信号:纯聊天模型的时代过去了。下一阶段的竞争,是谁能造出既能看又能干活的AI。

对开发者来说,这是好事。竞争越激烈,模型越好用、越便宜。对普通用户来说,可能再过半年,你手机上的AI助手就能看懂你拍的每一张照片,做出真正有用的操作——而不只是告诉你"这是一只猫"。

版权声明:
作者:AI风向标
链接:https://www.aiddithome.com/p/a8d08280bb016.html
来源:Agent
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
栗子同学
1楼 · 11小时前

作为小白我更好奇:这东西普通人能用吗?还是又是开发者专属?阿里能不能出一个像ChatGPT那样直接上传图片就能用的版本?

代码杰哥
2楼 · 11小时前

阿里这步棋走得对。多模态+智能体不是1+1=2,是1+1>3。以前项目里用Qwen写代码还要单独接个视觉模型,现在一个模型全搞定,部署链路短了很多。

工具猎人
3楼 · 11小时前

我在想一个场景:让Qwen3.7-Plus看UI设计稿,然后直接生成前端代码。如果阿里真把这条路跑通了,前端工程师的工作方式会彻底变。

硅谷子
4楼 · 11小时前

多模态智能体的核心价值不在「能看图」,而在「看图之后能干活」。这是Agent从聊天玩具到生产力工具的关键一跃。阿里在这个时间点发布,时机很好。

熵熵
5楼 · 11小时前

所以这个模型能看懂我拍的美食照片然后自动点外卖吗???