国产芯片第一次训出1.6万亿参数大模型，英伟达的护城河开始漏水了

AI搞钱研究所AI学习 2026-06-07 22:56:11 33阅读举报

6月5日，深圳发布甩了一个重磅消息：深圳河套学院联合哈工大(深圳)、深圳市大数据研究院和华为团队，用昇腾910C国产AI算力集群，成功完成了DeepSeek-V4-Pro的全参数后训练。这个模型总参数1.6万亿，训练全程1500多步，一次中断和报错都没发生。

这件事的含金量，不在芯片本身

很多人看到"国产芯片训大模型"，第一反应是"性能比英伟达差远了吧"。确实，昇腾910C的推理性能大约是英伟达H100的60%。但这件事的意义不在跑分，在于打通了"能不能训"这扇门。

过去国产芯片只能做推理，相当于用现成模型回答问题。全参数后训练是另一个维度的事——同时调整1.6万亿个参数，让模型学会反思、纠错、对齐人类指令。计算量和通信量是推理的几十倍。之前业内普遍认为国产芯片根本扛不住这种规模的训练，现在昇腾910C用事实把这层天花板捅穿了。

三个工程突破，没一个是花架子

这次能成靠的是实打实的工程能力。第一个叫"显存拼图"：1.6万亿参数不可能塞进任何单张卡，团队把模型拆成无数小块，精确分配到千卡集群的每一张卡上，哪张卡负责哪部分参数、什么时候交换数据，都算得清清楚楚。

第二个是"负载均衡"：DeepSeek-V4-Pro用的是MoE混合专家架构，训练时要所有"专家"同时学习。团队专门优化了调度算法，解决了有的专家忙死、有的闲死的堵车问题。

第三个最朴实也最难：1500多步训练全程不掉链。大模型训练最怕跑了好几天突然崩掉，所有时间算力打水漂。这次背后是一整套全链路监控和容错体系。最终模型算力利用率超过30%，关键算子效率提升14%，达到工业级标准。

为什么要关注这件事

第一，产业链的连锁反应马上就来。美国对高端AI芯片出口管制一直在加码，DeepSeek V3当初训练用的是2048块英伟达H800。现在昇腾910C证明能训1.6万亿参数模型，意味着国内大模型厂商有了一个不需要看美国脸色的B计划。百度、阿里、字节都在加速昇腾适配，这不是选不选的问题，是供应链安全的问题。

第二，训练成本会下来。据公开信息，昇腾910C的价格大约是英伟达H100的1/3。虽然单卡性能差一些，但用更多卡堆上去，总成本可能更低。这对AI创业公司来说意义重大，大模型训练的准入门槛在降低。

第三，人才培养是最被低估的价值。深圳这个项目已经培养了42名学生，让他们真刀真枪跑过万亿级模型的全流程。这些人未来会是中国AI自主化的核心力量。