6月5日,华为云在上海开了今年的INSPIRE创想者大会。华为云CEO周跃峰一口气发布了四款新品,名字一个比一个唬人:AICS灵衢智算集群、AMS Agentic记忆存储、CCE VolcanoNext调度平台、AgentSphere运行环境。
翻译成人话就是这四个东西
别被名字吓到,帮你拆开看。
AICS灵衢:一个超级Token工厂
这个东西本质是一个超大规模算力集群。支持10万卡级别的集群,总算力200EFLOPS。最关键的指标是:Token生成时延压到10毫秒以内,千卡每秒Token吞吐500万,在线可用性99.95%。
说人话:你让AI回复一句话,它生成每个字的延迟不到10毫秒,感觉跟打字一样快。而且背后能同时支撑海量用户,不会动不动就"服务器繁忙"。对于做AI应用开发的团队来说,底层推理速度直接决定了用户体验的天花板。
AMS记忆存储:给Agent装个硬盘
这个解决的是Agent最头疼的问题——记忆力。现在的Agent经常聊着聊着就忘了前面说了啥,因为记忆容量有限。AMS通过NPU直通CMS硬件,搞了个PB级的超大记忆空间,支持KV Cache分层池化。
翻译:就像给Agent从128MB内存升级到了1TB硬盘。它现在能记住天级别的长程任务,不会做着做着就失忆。这意味着Agent可以做更复杂、时间跨度更长的任务,而不是只能处理"一次性对话"。
CCE VolcanoNext:GPU调度大师
这是通智一体化调度引擎,核心卖点是"训推共池+碎片整合"。训练和推理共用同一套GPU资源池,不像以前那样训推分开部署。资源利用率提升了30%以上。
对企业来说,这意味着同一批GPU白天跑推理服务用户,晚上跑训练优化模型,不用买两套。30%的利用率提升,换算成成本是很可观的一笔钱。
AgentSphere:Agent安全屋
最后这个最容易被忽略但其实很重要。AgentSphere是Agent的运行环境,用羽量级沙箱技术做到了100毫秒极速启动,每分钟能批量创建十万个Agent实例。再加上意图主动防护,防止Agent乱来。
翻译:企业可以大规模部署Agent,启动快、数量大、不乱搞。这是Agent从"实验品"到"生产环境"最关键的一步——安全和规模化必须同时解决。
四个产品背后的逻辑:Agentic Infra新范式
华为云给这四件套起了个名字叫Agentic Infra——高效Token工厂+持续学习+通智一体化调度+安全自治。同时上线了"行业AI梦工厂"四个专区:智慧医疗、具身智能、智能制造、科学计算。
你会发现华为云的思路和大厂不太一样。腾讯在应用层铺Agent工具,微软在操作系统层嵌AI,英伟达在芯片层做AI PC。华为云选的是中间层——做Agent运行的"水电煤"。
这条路走得通吗
国内AI基础设施确实缺这么一套东西。大模型能力上来了,但把模型变成能稳定运行的Agent服务,中间要解决算力调度、记忆管理、安全沙箱一堆问题。华为云把这四个环节打包了。
挑战在于:生态。光有基础设施不够,得有人来用。华为云搞"行业AI梦工厂"四个专区,就是在铺应用生态。但能不能吸引足够多的开发者和企业进来,还得看后续落地的实际体验和价格。
方向没错——当模型能力趋于同质化,Agent基础设施的质量就变成了竞争的分水岭。

训推共池这个思路很实在。GPU一天24小时,白天推理晚上训练,利用率最大化。对创业公司来说,省下来的算力成本就是利润。华为云这波瞄准的是企业降本的核心痛点。
"通智一体化调度引擎"这个名字我真的笑了,华为起名还是那个味儿。但有一说一,资源利用率提升30%确实香。就是希望定价别跟名字一样高不可攀?
AMS那个PB级记忆空间才是真亮点。现在Agent最大的问题是上下文窗口有限,做长程任务做着做着就"失忆"了。如果真能支持天级任务不丢上下文,应用边界就打开了。
AgentSphere的沙箱技术听着不错,但我最关心一个问题:它到底能防住Agent幻觉导致的误操作吗?安全不是挡住外部攻击就够了,Agent自己犯傻也得兜底。
作为一个非技术人员,我看完的感觉是:以后AI服务会越来越稳定、越来越快。对我们普通用户来说,最直观的感受就是——AI回复变快了,不卡了。这就够了?