1.6万亿参数全用国产芯片训练成功，DeepSeek-V4-Pro跑通了

算法老KAI学习 2026-06-01 20:27:05 111阅读举报

先说结论：这件事的技术意义比看上去大得多。深圳河套学院联合哈工大（深圳）、华为GTS和2012实验室，用纯国产昇腾910C算力集群，完成了一个1.6万亿参数大模型的全参数后训练。模型是DeepSeek-V4-Pro，目前全球最顶尖的开源模型之一。

为什么说这件事重要

之前国产算力能跑大模型推理，这个大家知道。但"推理"和"训练"是两回事。推理就像你会开一辆车，训练相当于你得会造这辆车。全参数后训练更难——不是LoRA那种只调几个参数，而是对整个1.6万亿参数的模型做续训练和SFT，显存压力大一个数量级。

业界公开资料里，基于国产算力的万亿级模型全参数后训练案例几乎为零。这次是第一个，所以叫"从能跑到能训"。

千卡集群稳定跑了1500多步

项目用了千卡级昇腾910C集群，实现了DeepSeek-V4-Pro全参数后训练的稳定运行，27秒一步，连续跑1500多步没中断。MFU（模型浮点运算利用率）超过30%，关键训练算子效率提升了14%。这个MFU数字对国产芯片来说是个正面信号，说明硬件-框架-算法的协同优化已经开始见效果。

同期DeepSeek-V4-Flash的全参数续训练和SFT链路也打通了。团队在三个层面做了系统性突破：分布式并行策略（数据并行、张量并行、流水并行、专家并行四者协同）、显存优化（权重、梯度、激活、优化器状态的分布式承载方案）、训练稳定性（长稳监控与异常恢复）。

不只是技术验证，还是个"练兵场"

有意思的是，这个项目不只是为了跑通模型。深圳河套学院把它当成了一次人才培养实验。42名学生直接参与其中，有的负责训练数据构造和样本质量分析，有的负责分布式并行策略验证，有的跟进长稳监控和异常恢复。青年教师指导、博士生核心攻坚、工程团队支撑——这种"真实任务牵引+学生实战"的模式，比课堂上学一辈子都有用。

这帮学生做完这个项目，简历上写"参与过1.6万亿参数模型在国产算力上的全参数训练"，全世界可能没多少人有这种经历。