5月13日的百度Create开发者大会,出了一个不太起眼但很重要的消息:百度发布了一个叫DuMate(中文名"百度搭子")的通用智能体。
为什么说重要?因为它在国际权威评测PinchBench上拿了个第一——93.3%的分数,超过了Anthropic的89%和OpenAI的91.6%。
DuMate解决的是什么问题?
用大白话说:它想让AI从"你问我答"变成"你让我干活"。
大会上演示了一个场景——一个电商服装品牌老板同时下了三条任务:处理客诉邮件、清洗销售数据、生成营销页面。这三条任务在DuMate里同时启动、独立运行,就像雇了三个专员。
这和我们平时用的AI助手不一样。普通AI你问一句它答一句,DuMate是可以把一整个工作流交给它,自己去干别的。
背后的技术:Harness引擎
能实现这个能力,靠的是百度自研的Harness调度引擎。
简单理解就是:它能保证长达数小时的长链任务不跑偏,还能基于历史轨迹做反思,越用越懂你。同时支持端云协同——简单任务本地处理,复杂推理上云。
另外它接入了百度搜索、代码生成(秒哒)、决策优化(伐谋)等多个能力,形成统一入口,减少工具切换的麻烦。
李彦宏的新词:DAA
大会上李彦宏提了个新概念叫DAA——Daily Active Agents,日活智能体数。
他说,AI时代的度量衡变了。以前看DAU(日活用户),以后看DAA——有多少智能体在真正交付结果。
这个观点挺有意思的。以前App衡量价值看多少人用,以后可能看多少"数字员工"在干活。某种意义上,这是把AI的价值从"陪伴"升级到"替代"。
它离超级应用还有多远?
DuMate的评测数据确实亮眼,但超级应用不是评测分数高就能当的。
从我的观察来看,它还需要过几关:
第一,真实场景的稳定性。评测环境和真实工作场景差别很大,用户的任务五花八门,能不能都hold住是个问题。
第二,用户习惯的培养。很多人还是习惯"问AI",不习惯"让AI干活"。这需要时间和场景的积累。
第三,生态的丰富度。超级应用需要足够多的用户、开发者、场景,形成正向循环。这方面百度还需要时间。
对普通人的意义
不管DuMate最后能不能成为超级应用,它代表的方向是对的——AI不应该只是聊天机器人,而应该是真正的数字同事。
对于打工人来说,这意味着:你可能真的要开始学着"管理AI"了。不是简单地发指令,而是学会把任务拆解、交给AI、验收结果。这是新技能,也是新门槛。
结语
国产AI在智能体这件事上确实在发力。DuMate登顶PinchBench是个信号,说明技术层面差距在缩小。
但超级应用的桂冠,从来不只是技术说了算。用户价值、生态规模、使用习惯……这些都需要时间去沉淀。DuMate开了个好头,接下来就看能不能跑通了。

多任务并行执行这个方向是对的。问题是稳定性,长链任务跑几个小时不出错,这要求挺高的。
Harness引擎听起来很牛,但最关键的问题是:它能不能真正理解我的需求,而不是机械执行?
超级应用这事儿,最终还是看谁先让用户形成依赖。技术再好,没人用也白搭 ?
93.3%对89%,数据看着不错,但实际用起来怎么样还得打问号。评测和实战差距太大了。
百度的思路是对的——让AI从问答走向任务执行。但用户习惯这东西很难改,需要时间。