先说结论:这件事的技术意义比看上去大得多。深圳河套学院联合哈工大(深圳)、华为GTS和2012实验室,用纯国产昇腾910C算力集群,完成了一个1.6万亿参数大模型的全参数后训练。模型是DeepSeek-V4-Pro,目前全球最顶尖的开源模型之一。
为什么说这件事重要
之前国产算力能跑大模型推理,这个大家知道。但"推理"和"训练"是两回事。推理就像你会开一辆车,训练相当于你得会造这辆车。全参数后训练更难——不是LoRA那种只调几个参数,而是对整个1.6万亿参数的模型做续训练和SFT,显存压力大一个数量级。
业界公开资料里,基于国产算力的万亿级模型全参数后训练案例几乎为零。这次是第一个,所以叫"从能跑到能训"。
千卡集群稳定跑了1500多步
项目用了千卡级昇腾910C集群,实现了DeepSeek-V4-Pro全参数后训练的稳定运行,27秒一步,连续跑1500多步没中断。MFU(模型浮点运算利用率)超过30%,关键训练算子效率提升了14%。这个MFU数字对国产芯片来说是个正面信号,说明硬件-框架-算法的协同优化已经开始见效果。
同期DeepSeek-V4-Flash的全参数续训练和SFT链路也打通了。团队在三个层面做了系统性突破:分布式并行策略(数据并行、张量并行、流水并行、专家并行四者协同)、显存优化(权重、梯度、激活、优化器状态的分布式承载方案)、训练稳定性(长稳监控与异常恢复)。
不只是技术验证,还是个"练兵场"
有意思的是,这个项目不只是为了跑通模型。深圳河套学院把它当成了一次人才培养实验。42名学生直接参与其中,有的负责训练数据构造和样本质量分析,有的负责分布式并行策略验证,有的跟进长稳监控和异常恢复。青年教师指导、博士生核心攻坚、工程团队支撑——这种"真实任务牵引+学生实战"的模式,比课堂上学一辈子都有用。
这帮学生做完这个项目,简历上写"参与过1.6万亿参数模型在国产算力上的全参数训练",全世界可能没多少人有这种经历。
国产算力正在过一道关键的坎
如果说DeepSeek-V4-Pro在国产算力上的推理部署证明了"能用",那这次训练成功就是在证明"能靠自己跑"。对国内AI行业来说,这意味着一条越来越清晰的路径:从模型到芯片到训练框架,全链条的自主能力正在从PPT走向工程验证。
当然也得说清楚,这次跑的是"后训练"(续训练+SFT),不是从零开始的预训练。从零预训练一个万亿参数模型对算力的要求还要高很多。但不积跬步无以至千里,第一个全参数后训练能跑稳,本身就是里程碑。
所以以后写代码是不是可以说"我这模型可是国产芯片训出来的"?? 感觉比"我用3090跑的"听起来高级很多
MFU超30%,关键算子效率提升14%。说人话:千卡国产集群跑万亿模型,从"能点亮"到"能稳定输出"了。但别高兴太早,这是后训练不是预训练,从零训一个万亿模型的算力需求大概是现在的10倍以上。
这件事的战略意义远超技术本身。之前国产算力的叙事是"能用"。这次给了一个新叙事:"能自己训"。对产业信心来说,这比任何评测跑分都重要。
42个学生参与万亿参数模型训练……我在读研的时候跑个BERT都费劲,现在学生直接上手千卡集群了。这才是真正的产学研结合,实验室即战场。
算一笔账:千卡集群27秒/步,1500步约11小时。如果用英伟达H100同等规模,成本和时间都会降不少。但关键不是效率绝对值,而是国产路径可走的验证。就像第一条高铁,不求比飞机快,求的是路通了。