这周AI圈有个不太显眼但值得关注的趋势:桌面Agent突然扎堆上线了。阿里出了QoderWork,腾讯有Mavis,月之暗面的KimiWork,第三方也有人搞了DeepSeek GUI。它们干的都是同一件事——让AI不再只是「回答问题」,而是直接在桌面上「完成工作」。
QoderWork实测:能干杂活,但只有实习生水平
36氪旗下的雷科技拿QoderWork做了三轮测试,结果挺有意思。第一轮让它写一篇WWDC的科技稿,从研究风格到搜集信息到选题到成文到生成Word文档,整条链路跑通了,但文章里出现了没有可靠来源的数据——典型AI写稿问题,看着像样不代表事实可靠。
第二轮让做商务PPT,它发现系统缺少Node.js环境,主动向用户请求安装,获批后自己下载安装依赖,最后生成了13页PPT。这个行为很关键——普通AI聊天工具遇到缺环境只会说「建议你安装XXX」,QoderWork会主动补齐工具链。但成品里没有真实logo,目录页还有模板残留文字。
第三轮做展会专题网页,反而表现最好。生成的可运行的HTML/CSS/JS网页,7个section、响应式布局、展品分类切换,零报错。深色科技风也在线。从代码能力看,确实是Qwen 3.7 Max的底子够硬。
不是只有阿里在搞,是集体爆发
桌面Agent这个赛道突然热闹了。腾讯Mavis走的是类似路线——桌面AI助手,主打跨应用任务执行。月之暗面KimiWork更聚焦办公场景,文档处理是强项。OpenAI的Codex CLI也在做类似的事,但它更偏向开发者群体。
这些产品共同的逻辑是:把AI从「对话盒子」变成「任务引擎」。你发起一个目标,它拆成若干步骤,跑完把产物落成文件,全程保留在任务列表里可以回溯。和聊天机器人最大的区别是:聊天聊完就没了,任务跑完留产物。
定时任务是个被低估的功能
QoderWork和Claude Managed Agents都开始支持定时任务——让Agent按cron计划自动执行周期性工作。比如每天清理下载文件夹、每周做竞品动态追踪、每月生成数据报表。以前你得手动触发AI,现在它可以自己按时间表干活。
不过目前这些定时任务需要电脑保持唤醒状态,关机或断网就失效了。这说明桌面Agent还处于「半自主」阶段——它能在你工作时帮你省力,但还不能在你离开后独立运转。
离「直接交付」还差一个台阶
三轮测下来,QoderWork完成了从「只会回答」到「能干活」的阶段性跨越。但成品质量需要多抽几次卡、多调整几轮才能投入使用。用雷科技的话说:「AI实习生」——能干活,但未必干得好。
从「能做初稿」到「可以放心交付」,差的不是一个技术突破,而是对上下文理解、事实核查、审美判断的综合能力。这些恰恰是目前大模型的短板。但方向是对的,速度也是快的。半年前桌面Agent还是个概念,今天已经能实际跑任务了。再给半年时间,局面可能完全不同。

桌面Agent最大的坑不是技术,是权限。你要让它操控你的桌面,就得给它屏幕录制、辅助功能、文件系统权限。这些权限一旦出问题就是灾难。所以目前「人机协作」模式是对的——AI干活,人做安全确认。
实习生这个比喻绝了。能干活但未必干得好,能省时间但不能完全放手。关键是迭代速度——QoderWork现在还是0.5版本,半年后到1.0会是什么样?这个赛道的进化速度比其他AI应用快得多。
作为一个小白,我试了QoderWork做周报,它确实帮我省了大概40分钟。但文章里说它编造数据的问题我遇到了——它会很自信地写一个完全不存在的数字。所以现在我的流程是:它写初稿,我查事实,然后合并。效率还是提升了的。
我同时装了QoderWork和Mavis,用了两周的结论:QoderWork代码能力更强(千问底子确实硬),Mavis在办公文档处理上更顺手。但两个都还处于「能用但不够放心」阶段。关键功能其实就一个——定时任务,谁能把这块做稳定,谁先赢。
那个「发现缺Node.js主动安装依赖」的细节太真实了。普通AI:建议您安装。桌面Agent:我已经帮你装好了。这就是聊天机器人和干活工具的本质区别。