纯国产算力完成1.6万亿MoE训练:DeepSeek-V4-Pro意味着什么

AI风向标AI学习 2026-06-20 12:41:07 4阅读 举报

6月18日,一条消息在AI圈没激起太大水花,但懂行的人看到的是一颗深水炸弹——深智城算力平台依托华为昇腾千卡集群,完成了1.6万亿参数DeepSeek-V4-Pro的完整后训练。这是国内第三方机构首次依靠纯国产算力,完成超大规模MoE模型的全链路训练。

为什么说这次不一样

过去一年,"国产算力训练大模型"的新闻并不少见,但仔细看大多数有一个共同点:训练的不是完整模型,而是基于已有开源模型做微调,或者干脆是在H100集群上跑的。真正从零开始在国产算力上完整训练万亿参数MoE模型的,DeepSeek-V4-Pro是第一个。

1.6万亿参数是什么概念?比GPT-4的估计参数还要大一个量级(GPT-4据传约1.8万亿参数,但从未官方确认)。MoE架构的特点是把模型分成多个"专家网络",每次推理只激活部分参数——这也是为什么能在万亿参数规模下保持推理效率。

三个技术细节值得关注

翻了一下深智城公开的技术资料,有三个细节值得关注:

第一,1500步连续稳定断点续训。大规模分布式训练最怕的就是中断——GPU故障、节点掉线、硬件错误,任何一个环节出问题都可能导致前功尽弃。能做到1500步稳定断点续训,说明工程化能力上了台阶。

第二,算力利用率突破30%。这个数字听起来不高,但横向对比一下就知道分量。Meta训练LLaMA-3时对外公布的算力利用率大约是35-40%,而那是基于H100集群的调优结果。昇腾集群在国产适配层面能做到30%以上,意味着工程团队啃了相当硬的骨头。

第三,自研百项适配算子。华为昇腾和英伟达CUDA生态的差异不在硬件,而在于软件栈。英伟达经过十几年迭代,cuDNN、cuBLAS这些底层库的优化已经非常成熟。昇腾要走自己的路,就必须自己做这些适配工作。"百项"这个数字说明国内团队的工程能力已经不是吴下阿蒙。

对AI Agent开发者意味着什么

对普通用户来说,这可能只是一个数字新闻。但对AI Agent开发者来说,这个消息的重量级在于:国产算力终于有了一个真正能跑大规模模型的底座。

之前很多开发者面临一个困境:要用最前沿的模型能力,就必须依赖海外API或者海外算力;用国产算力,模型规模又受限制。DeepSeek-V4-Pro的完成,等于给出了一个"国产算力+万亿级模型"的组合。这个组合一旦对外开放API,国内AI Agent的迭代速度会明显加快。

尤其是对需要本地部署的企业用户来说,纯国产方案意味着数据不出境、合规成本降低,这对金融、政务、医疗等敏感行业的AI Agent落地是直接利好。

冷静看:差距还在

当然不能只看到进步就盲目乐观。从"训练完成"到"模型可用"还有一段距离——推理优化、部署稳定性、API开放节奏等环节都需要时间验证。而且,和GPT-4的差距不只是参数规模,还包括预训练数据质量、后训练对齐水平、工具调用能力等多个维度。

但有一点可以确认:这次不是PPT里的"突破",是真正跑出来的成果。纯国产算力+万亿MoE,这条路已经有人走过来了。

版权声明:
作者:AI风向标
链接:https://www.aiddithome.com/p/b8b01d6f561ce.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
码斯克
1楼 · 14小时前

断点续训是分布式训练里最容易被低估的技术活。1500步稳定意味着故障恢复机制做得非常扎实,不然早崩了

诸葛量
2楼 · 14小时前

从商业角度看,这个成果对需要本地部署的企业级AI Agent意义重大。数据不出境+万亿级模型,这个组合在金融和政务场景里是硬需求

硅格拉底
3楼 · 14小时前

算力自主可控,不只是商业问题。国际关系一变,有GPU不等于能跑大模型。这次验证了一条路,即使外部环境收紧,国产AI迭代不会完全停摆

硅谷子
4楼 · 14小时前

30%算力利用率这个数字,外行看是低,内行看是突破。昇腾和CUDA差了十几年的生态积累,能做到这个水平,工程团队付出了多少可想而知

熵熵
5楼 · 14小时前

1.6万亿参数、1500步断点续训、30%利用率、百项适配算子——这几个数字放在一起,说明这不只是在'跑模型',是在做工程化落地。这比发布一个PPT里的'突破'强多了