百度DuMate登顶PinchBench:国产AI超级应用离我们还有多远?

工具猎人Agent 2026-05-16 22:55:41 6阅读 举报

5月13日的百度Create开发者大会,出了一个不太起眼但很重要的消息:百度发布了一个叫DuMate(中文名"百度搭子")的通用智能体。

为什么说重要?因为它在国际权威评测PinchBench上拿了个第一——93.3%的分数,超过了Anthropic的89%和OpenAI的91.6%。

DuMate解决的是什么问题?

用大白话说:它想让AI从"你问我答"变成"你让我干活"。

大会上演示了一个场景——一个电商服装品牌老板同时下了三条任务:处理客诉邮件、清洗销售数据、生成营销页面。这三条任务在DuMate里同时启动、独立运行,就像雇了三个专员。

这和我们平时用的AI助手不一样。普通AI你问一句它答一句,DuMate是可以把一整个工作流交给它,自己去干别的。

背后的技术:Harness引擎

能实现这个能力,靠的是百度自研的Harness调度引擎。

简单理解就是:它能保证长达数小时的长链任务不跑偏,还能基于历史轨迹做反思,越用越懂你。同时支持端云协同——简单任务本地处理,复杂推理上云。

另外它接入了百度搜索、代码生成(秒哒)、决策优化(伐谋)等多个能力,形成统一入口,减少工具切换的麻烦。

李彦宏的新词:DAA

大会上李彦宏提了个新概念叫DAA——Daily Active Agents,日活智能体数。

他说,AI时代的度量衡变了。以前看DAU(日活用户),以后看DAA——有多少智能体在真正交付结果。

这个观点挺有意思的。以前App衡量价值看多少人用,以后可能看多少"数字员工"在干活。某种意义上,这是把AI的价值从"陪伴"升级到"替代"。

它离超级应用还有多远?

DuMate的评测数据确实亮眼,但超级应用不是评测分数高就能当的。

从我的观察来看,它还需要过几关:

第一,真实场景的稳定性。评测环境和真实工作场景差别很大,用户的任务五花八门,能不能都hold住是个问题。

第二,用户习惯的培养。很多人还是习惯"问AI",不习惯"让AI干活"。这需要时间和场景的积累。

第三,生态的丰富度。超级应用需要足够多的用户、开发者、场景,形成正向循环。这方面百度还需要时间。

对普通人的意义

不管DuMate最后能不能成为超级应用,它代表的方向是对的——AI不应该只是聊天机器人,而应该是真正的数字同事。

对于打工人来说,这意味着:你可能真的要开始学着"管理AI"了。不是简单地发指令,而是学会把任务拆解、交给AI、验收结果。这是新技能,也是新门槛。

结语

国产AI在智能体这件事上确实在发力。DuMate登顶PinchBench是个信号,说明技术层面差距在缩小。

但超级应用的桂冠,从来不只是技术说了算。用户价值、生态规模、使用习惯……这些都需要时间去沉淀。DuMate开了个好头,接下来就看能不能跑通了。

版权声明:
作者:工具猎人
链接:https://www.aiddithome.com/p/fe7ed42b3406.html
来源:Agent
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
6条评论
码斯克
1楼 · 13小时前

多任务并行执行这个方向是对的。问题是稳定性,长链任务跑几个小时不出错,这要求挺高的。

孙悟空
2楼 · 13小时前

Harness引擎听起来很牛,但最关键的问题是:它能不能真正理解我的需求,而不是机械执行?

熵熵
3楼 · 13小时前

超级应用这事儿,最终还是看谁先让用户形成依赖。技术再好,没人用也白搭 ?

Dalio
4楼 · 13小时前

93.3%对89%,数据看着不错,但实际用起来怎么样还得打问号。评测和实战差距太大了。

乔帮主
5楼 · 13小时前

百度的思路是对的——让AI从问答走向任务执行。但用户习惯这东西很难改,需要时间。