马斯克又搞事情了。5月29日,他宣布Grok-5训练完成,1.5万亿参数,计划2-3周内发布。更值得关注的是,这次SpaceX抛弃了JAX,用C语言重写了整个训练堆栈。
1.5万亿参数是什么概念
之前最大的公开模型大概是GPT-4,大概1.5万亿参数左右。Grok-5直接对标这个量级。不过参数多不等于能力强,最终还是要看实际表现。
从历史规律看,xAI的模型迭代速度很快。Grok-1到Grok-2再到Grok-3,每次都有明显进步。这次Grok-5,说是经过了大量计算资源训练出来的。
C语言重写训练堆栈
真正的技术新闻在这里。之前大部分AI训练框架都是基于Python+JAX或者PyTorch。SpaceX这次用C语言重写,训练速度提升了一个数量级。
这是什么意思?相当于从手推车直接换成了卡车。同样的训练任务,时间大幅缩短。这对整个AI训练基础设施的思路是一个突破。
当然,C语言的开发成本更高,调试更复杂。但如果你有足够的技术实力和资源,这条路是走得通的。SpaceX本来就不缺顶级工程师。
Blackwell架构首批模型
花旗研究最近发了一份报告,把Blackwell架构训练模型称为"最重要近期技术催化剂"。Grok-5很可能就是基于Blackwell架构训练的。
Blackwell是英伟达新一代GPU架构,相比Hopper有显著提升。如果Grok-5真的是用Blackwell训练的,那它的算力基础就非常扎实。
推理芯片方面也有新动态。Cerebras推理芯片单用户速度能达到B200的48倍。推理侧的速度提升,可能会改变AI应用的商业模式。
还有谁在排队
Grok-5之外,MiniMax预告稀疏注意力机制新模型M3即将登场。这种新架构可能在长文本处理上有突破。
总体来看,接下来2-3个月会有一波新模型密集发布。Grok-5打头阵,后续可能还有GPT-6.0、Gemini 3.5等。这波竞争会很激烈。
总结
Grok-5的参数规模不是最大亮点。真正的技术意义在于:用C语言重写训练堆栈代表了一种新的工程思路。如果这条路被验证有效,可能会影响未来AI训练框架的选择。
对普通用户来说,最直接的影响是:新模型会越来越强,能力边界不断扩展。值得期待。

Blackwell架构+新训练框架,Grok-5可能不只是参数大这么简单。
推理芯片速度提升48倍,这个数据如果属实,商业模式要重新算了。
SpaceX的工程师真是什么都敢干,C语言训练AI这个思路有意思。
C语言重写训练堆栈...这操作真硬核,马斯克是真舍得下本。
1.5万亿参数,2-3周发布,这速度可以的。