纯国产算力完成1.6万亿MoE训练：DeepSeek-V4-Pro意味着什么

AI风向标AI学习 2026-06-20 12:41:07 4阅读举报

6月18日，一条消息在AI圈没激起太大水花，但懂行的人看到的是一颗深水炸弹——深智城算力平台依托华为昇腾千卡集群，完成了1.6万亿参数DeepSeek-V4-Pro的完整后训练。这是国内第三方机构首次依靠纯国产算力，完成超大规模MoE模型的全链路训练。

为什么说这次不一样

过去一年，"国产算力训练大模型"的新闻并不少见，但仔细看大多数有一个共同点：训练的不是完整模型，而是基于已有开源模型做微调，或者干脆是在H100集群上跑的。真正从零开始在国产算力上完整训练万亿参数MoE模型的，DeepSeek-V4-Pro是第一个。

1.6万亿参数是什么概念？比GPT-4的估计参数还要大一个量级（GPT-4据传约1.8万亿参数，但从未官方确认）。MoE架构的特点是把模型分成多个"专家网络"，每次推理只激活部分参数——这也是为什么能在万亿参数规模下保持推理效率。

翻了一下深智城公开的技术资料，有三个细节值得关注：

第一，1500步连续稳定断点续训。大规模分布式训练最怕的就是中断——GPU故障、节点掉线、硬件错误，任何一个环节出问题都可能导致前功尽弃。能做到1500步稳定断点续训，说明工程化能力上了台阶。

第二，算力利用率突破30%。这个数字听起来不高，但横向对比一下就知道分量。Meta训练LLaMA-3时对外公布的算力利用率大约是35-40%，而那是基于H100集群的调优结果。昇腾集群在国产适配层面能做到30%以上，意味着工程团队啃了相当硬的骨头。

第三，自研百项适配算子。华为昇腾和英伟达CUDA生态的差异不在硬件，而在于软件栈。英伟达经过十几年迭代，cuDNN、cuBLAS这些底层库的优化已经非常成熟。昇腾要走自己的路，就必须自己做这些适配工作。"百项"这个数字说明国内团队的工程能力已经不是吴下阿蒙。

对普通用户来说，这可能只是一个数字新闻。但对AI Agent开发者来说，这个消息的重量级在于：国产算力终于有了一个真正能跑大规模模型的底座。

之前很多开发者面临一个困境：要用最前沿的模型能力，就必须依赖海外API或者海外算力；用国产算力，模型规模又受限制。DeepSeek-V4-Pro的完成，等于给出了一个"国产算力+万亿级模型"的组合。这个组合一旦对外开放API，国内AI Agent的迭代速度会明显加快。

尤其是对需要本地部署的企业用户来说，纯国产方案意味着数据不出境、合规成本降低，这对金融、政务、医疗等敏感行业的AI Agent落地是直接利好。

当然不能只看到进步就盲目乐观。从"训练完成"到"模型可用"还有一段距离——推理优化、部署稳定性、API开放节奏等环节都需要时间验证。而且，和GPT-4的差距不只是参数规模，还包括预训练数据质量、后训练对齐水平、工具调用能力等多个维度。

但有一点可以确认：这次不是PPT里的"突破"，是真正跑出来的成果。纯国产算力+万亿MoE，这条路已经有人走过来了。

版权声明：
作者：AI风向标
链接：https://www.aiddithome.com/p/b8b01d6f561ce.html
来源：AI学习
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。

5条评论

1楼 · 14小时前

断点续训是分布式训练里最容易被低估的技术活。1500步稳定意味着故障恢复机制做得非常扎实，不然早崩了

0人赞回复0

2楼 · 14小时前

从商业角度看，这个成果对需要本地部署的企业级AI Agent意义重大。数据不出境+万亿级模型，这个组合在金融和政务场景里是硬需求

3楼 · 14小时前

算力自主可控，不只是商业问题。国际关系一变，有GPU不等于能跑大模型。这次验证了一条路，即使外部环境收紧，国产AI迭代不会完全停摆

4楼 · 14小时前

30%算力利用率这个数字，外行看是低，内行看是突破。昇腾和CUDA差了十几年的生态积累，能做到这个水平，工程团队付出了多少可想而知

5楼 · 14小时前

1.6万亿参数、1500步断点续训、30%利用率、百项适配算子——这几个数字放在一起，说明这不只是在'跑模型'，是在做工程化落地。这比发布一个PPT里的'突破'强多了