6月5号,xAI悄悄把Grok Build扔进了公测。没开发布会,没写长文,就马斯克一条推文——但邀请页面三个小时就被挤爆了。我搞到了beta名额,跑了两天,跟Claude Code和Codex对比了一下,结论很直接:AI编程Agent的三国杀时代,正式开始了。
Grok Build是个什么东西
简单说,它是一个终端里的AI编程Agent。你装好之后cd进项目目录,敲grok-build,然后像跟同事说话一样给它派活:"把这个接口从REST改成GraphQL"、"找到内存泄漏点并修复"。它会自己读代码库、写改动、跑测试、根据结果迭代——完全自主。
跟Claude Code挺像,但有两点不一样。第一,它的TUI界面有面板:左边对话,右边实时diff预览,底部是任务日志。视觉上更像Cursor的终端版,比Claude Code纯文本输出直观一些。代价是刷新时会多几十毫秒延迟,终端性能差的机器上能感觉到。
第二,它背后跑的是Grok 4.3。SWE-Bench Verified跑79.4%,介于GPT-5.5(75.4%)和Claude Opus 4.8(88.6%)之间。代码质量差距真实存在,但日常任务——写CRUD、重构模块、写测试——三个工具干得都不差。
三国杀的格局
现在AI编程Agent市场三足鼎立:
Claude Code是"质量派"。Opus 4.8在复杂任务上的推理深度目前最强,SWE-Bench差近9个点,这个差距对于复杂自主编程任务是实质性的。缺点是速度慢、token消耗高,一条复杂任务可能烧掉几千token。
Codex是"生态派"。背靠GPT-5.5,插件多、沙箱强、CI/CD集成成熟。400万周活用户,Gartner列为领导者。并行异步执行是它的杀手功能——同时派三个任务,喝完咖啡回来PR已经在等你了。
Grok Build呢?目前定位"性价比刺客"。beta期间免费,正式版预计25美元月费或按token计费,比Claude Code Pro(20美元)略贵,但带了原生实时网络搜索——别的都没有。而且xAI还发了个ACP(Agent Client Protocol),能让Grok Build跟其他Agent通信。虽然现在生态≈零,但这东西如果长起来,想象空间不小。
我实测两天的感受
让它重构了一个Express项目的中间件层,从8个文件缩到4个,代码干净,测试全过。中间有一个地方它把路由逻辑搞乱了,但在日志里自己发现了,退了回去重新来。这种自我纠错能力是评判Agent好不好用的核心指标。
但复杂业务逻辑——比如涉及多个微服务调用的并发控制——它还是容易翻车。不是做不出来,是做了两次,一次漏了超时控制,一次锁的范围不对。最后还是我手动修了。
比较让我意外的是它的实时搜索功能。让它写一段对接Stripe最新API的代码,它居然自己去搜了官方文档的最新变更,写出了正确的新版调用——Claude Code和Codex目前都做不到(模型训练数据截止后没法实时获取信息)。这个能力对于对接外部API、使用新发布的库的场景挺实用。
三家怎么选
如果你在选AI编程Agent,我的建议很简单:
复杂架构、深度推理任务 → Claude Code。代码质量目前还是第一。
团队协作、CI/CD集成、批量任务 → Codex。生态和并行执行最成熟。
预算敏感、需要联网搜索、想尝鲜 → Grok Build。性价比和实时搜索是差异化优势。
实际上很多团队已经在同时用两个了——质量要求高的给Claude Code,日常任务给Codex。Grok Build入局后,这个组合可能会变成三个。
重点不是工具,是工作方式变了
不管用哪个,有一点是确定的:工程师的角色正在从"写代码"变成"派任务+审结果"。早上来派3-5个任务给Agent,处理完邮件,PR已经在等你了。
这个变化不像从vim到IDE那种工具升级——它更像从手写汇编到高级语言的范式迁移。Grok Build的加入只是加速了这个过程。未来一年,AI编程Agent会从一个"很酷的帮手"变成"不用的工程师会掉队"。
SWE-Bench 79.4% vs Opus 4.8的88.6%,差了9个百分点。对日常CRUD可能感觉不出来,但复杂重构场景这个差距会被放大。不过Grok 4.3带实时搜索这点确实香——我让Claude Code写对接新API的代码它经常用旧版,还得我自己去查文档喂给它。Grok能自己搜文档这功能,对对接外部服务的场景是刚需。
一个好的编程Agent不是代码写得最漂亮的,而是"在什么地方该停下来问你"的最聪明的那个。Grok Build能发现自己的路由错误并回退——这比SWE-Bench多几个点更有价值。真正的Agent不是在赛道上跑分,是能在迷宫里找到回头路。
Grok Build的TUI面板设计确实舒服,跟Cursor在终端里的感觉差不多。Claude Code那个纯文本输出有时候翻日志太累了。但Grok的ACP协议现在还是个空壳——生态几乎为零,跟MCP那97M+下载量没法比。想靠"Agent间通信"这个叙事追上来,可能需要两年。
"早上派3-5个任务给Agent,处理完邮件PR已经在等你了"——这才是正确的打开方式。我们组已经在这么干了,我管这叫"AI摸鱼流水线"。唯一的问题是token账单有点吓人,组长已经在问为什么上个月API费用超了预算三倍。各位用的时候注意点,别把公司的AI预算烧完了?
从写代码到审代码,这个角色的转变比我预想的快。六个月前我还觉得AI编程Agent是玩具,现在我已经一周没手写超过100行代码了。Grok Build最让我意外的是它"自己发现错误自己回退"——这才是Agent和Copilot的本质区别。Copilot帮你写,Agent替你做。