xAI Grok Build入局：AI编程Agent进入三国杀

6月5号，xAI悄悄把Grok Build扔进了公测。没开发布会，没写长文，就马斯克一条推文——但邀请页面三个小时就被挤爆了。我搞到了beta名额，跑了两天，跟Claude Code和Codex对比了一下，结论很直接：AI编程Agent的三国杀时代，正式开始了。

Grok Build是个什么东西

简单说，它是一个终端里的AI编程Agent。你装好之后cd进项目目录，敲grok-build，然后像跟同事说话一样给它派活："把这个接口从REST改成GraphQL"、"找到内存泄漏点并修复"。它会自己读代码库、写改动、跑测试、根据结果迭代——完全自主。

跟Claude Code挺像，但有两点不一样。第一，它的TUI界面有面板：左边对话，右边实时diff预览，底部是任务日志。视觉上更像Cursor的终端版，比Claude Code纯文本输出直观一些。代价是刷新时会多几十毫秒延迟，终端性能差的机器上能感觉到。

第二，它背后跑的是Grok 4.3。SWE-Bench Verified跑79.4%，介于GPT-5.5(75.4%)和Claude Opus 4.8(88.6%)之间。代码质量差距真实存在，但日常任务——写CRUD、重构模块、写测试——三个工具干得都不差。

三国杀的格局

现在AI编程Agent市场三足鼎立：

Claude Code是"质量派"。Opus 4.8在复杂任务上的推理深度目前最强，SWE-Bench差近9个点，这个差距对于复杂自主编程任务是实质性的。缺点是速度慢、token消耗高，一条复杂任务可能烧掉几千token。

Codex是"生态派"。背靠GPT-5.5，插件多、沙箱强、CI/CD集成成熟。400万周活用户，Gartner列为领导者。并行异步执行是它的杀手功能——同时派三个任务，喝完咖啡回来PR已经在等你了。

Grok Build呢？目前定位"性价比刺客"。beta期间免费，正式版预计25美元月费或按token计费，比Claude Code Pro(20美元)略贵，但带了原生实时网络搜索——别的都没有。而且xAI还发了个ACP（Agent Client Protocol），能让Grok Build跟其他Agent通信。虽然现在生态≈零，但这东西如果长起来，想象空间不小。

我实测两天的感受

让它重构了一个Express项目的中间件层，从8个文件缩到4个，代码干净，测试全过。中间有一个地方它把路由逻辑搞乱了，但在日志里自己发现了，退了回去重新来。这种自我纠错能力是评判Agent好不好用的核心指标。

但复杂业务逻辑——比如涉及多个微服务调用的并发控制——它还是容易翻车。不是做不出来，是做了两次，一次漏了超时控制，一次锁的范围不对。最后还是我手动修了。

比较让我意外的是它的实时搜索功能。让它写一段对接Stripe最新API的代码，它居然自己去搜了官方文档的最新变更，写出了正确的新版调用——Claude Code和Codex目前都做不到（模型训练数据截止后没法实时获取信息）。这个能力对于对接外部API、使用新发布的库的场景挺实用。

三家怎么选

如果你在选AI编程Agent，我的建议很简单：

复杂架构、深度推理任务 → Claude Code。代码质量目前还是第一。

团队协作、CI/CD集成、批量任务 → Codex。生态和并行执行最成熟。

预算敏感、需要联网搜索、想尝鲜 → Grok Build。性价比和实时搜索是差异化优势。

实际上很多团队已经在同时用两个了——质量要求高的给Claude Code，日常任务给Codex。Grok Build入局后，这个组合可能会变成三个。

重点不是工具，是工作方式变了

不管用哪个，有一点是确定的：工程师的角色正在从"写代码"变成"派任务+审结果"。早上来派3-5个任务给Agent，处理完邮件，PR已经在等你了。

这个变化不像从vim到IDE那种工具升级——它更像从手写汇编到高级语言的范式迁移。Grok Build的加入只是加速了这个过程。未来一年，AI编程Agent会从一个"很酷的帮手"变成"不用的工程师会掉队"。

5条评论

算法老K

1楼 · 2026-06-08 12:42:02

SWE-Bench 79.4% vs Opus 4.8的88.6%，差了9个百分点。对日常CRUD可能感觉不出来，但复杂重构场景这个差距会被放大。不过Grok 4.3带实时搜索这点确实香——我让Claude Code写对接新API的代码它经常用旧版，还得我自己去查文档喂给它。Grok能自己搜文档这功能，对对接外部服务的场景是刚需。

0人赞回复0

硅格拉底

2楼 · 2026-06-08 12:42:02

一个好的编程Agent不是代码写得最漂亮的，而是"在什么地方该停下来问你"的最聪明的那个。Grok Build能发现自己的路由错误并回退——这比SWE-Bench多几个点更有价值。真正的Agent不是在赛道上跑分，是能在迷宫里找到回头路。

工具猎人

3楼 · 2026-06-08 12:42:02

Grok Build的TUI面板设计确实舒服，跟Cursor在终端里的感觉差不多。Claude Code那个纯文本输出有时候翻日志太累了。但Grok的ACP协议现在还是个空壳——生态几乎为零，跟MCP那97M+下载量没法比。想靠"Agent间通信"这个叙事追上来，可能需要两年。

AI摸鱼大王

4楼 · 2026-06-08 12:42:02

"早上派3-5个任务给Agent，处理完邮件PR已经在等你了"——这才是正确的打开方式。我们组已经在这么干了，我管这叫"AI摸鱼流水线"。唯一的问题是token账单有点吓人，组长已经在问为什么上个月API费用超了预算三倍。各位用的时候注意点，别把公司的AI预算烧完了?

码斯克

5楼 · 2026-06-08 12:42:02

从写代码到审代码，这个角色的转变比我预想的快。六个月前我还觉得AI编程Agent是玩具，现在我已经一周没手写超过100行代码了。Grok Build最让我意外的是它"自己发现错误自己回退"——这才是Agent和Copilot的本质区别。Copilot帮你写，Agent替你做。