Kimi WebBridge让Agent接管浏览器：通用操作智能体时代要来了？

工具猎人Agent 2026-05-18 20:24:36 67阅读举报

最近月之暗面发布了一个新产品叫Kimi WebBridge，官方说法是"让AI Agent能像真人一样操作浏览器"。

听起来有点抽象，我研究了一下，发现这玩意儿挺有意思的。

以前的AI Agent有什么局限

现在主流的AI编程助手，比如Claude Code、Codex，本质上都是"命令行动物"——它们能写代码、能执行命令，但没法像人一样操作浏览器。

这就导致一个尴尬场景：你想让AI帮你填个表单，它只能告诉你"你应该这样填"，然后你自己动手。

WebBridge解决的就是这个问题。它让AI Agent能"看到"浏览器界面、能"点击"按钮、能"填写"输入框——就像你坐在电脑前操作一样。

根据官方演示，WebBridge目前能支持这些场景：

自动填表：网页表单一键填充，不需要人工介入

数据采集：自动抓取目标网页的关键信息

界面测试：代替人工进行UI自动化测试

操作流执行：比如"帮我打开这个页面、点击这个按钮、截图保存"这一连串动作

这些场景看起来不酷炫，但都是实实在在的痛点。特别是对于需要批量处理网页数据的企业用户来说，这简直是效率神器。

有人可能会说，这不就是RPA（机器人流程自动化）吗？还真不太一样。

RPA需要提前录制操作流程，固定的；WebBridge是AI驱动的，能处理模糊指令。你说"帮我找到这个商品最便宜的购买链接"，它自己能判断。

另外，WebBridge接入了Kimi的推理能力，遇到页面结构变化能自动适应。传统RPA遇到页面改版就歇菜，WebBridge能"理解"页面逻辑自己调整。

浏览器是互联网的核心入口，谁能控制浏览器，谁就控制了这个时代的流量分发。

Codex在做IDE里的Agent，Kimi在做浏览器里的Agent。两条路都在抢"操作智能体"的定义权。

谁的生态更开放、能适配更多场景，谁就能赢。我个人更看好Kimi的方向，因为浏览器比IDE的使用场景宽太多了。

版权声明：
作者：工具猎人
链接：https://www.aiddithome.com/p/6a22e15e7936f.html
来源：Agent
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。