先说结论:Computex 2026上英特尔陈立武的演讲,可能被大多数人低估了。大家都在盯着英伟达的RTX Spark和Blackwell,但英特尔提出了一个更根本的问题——当AI从"问答模式"进入"Agent模式",算力结构会彻底改变。
GPU不是唯一的答案
过去两年,AI硬件几乎就是GPU的代名词。训练用GPU,推理用GPU,端侧也用GPU。但在Agentic AI场景下,事情变了。传统AI是"回合制"——你一句我一句,一次推理就结束。Agent不是这样。它要在真实工作流里持续运转:读取数据、调用工具、执行任务、检查结果、根据反馈调整下一步——这是一个"思考、规划、行动、反思"的循环。
英特尔给了一个关键数据:与单轮推理相比,一个智能体的Token消耗量最高可增加1000倍。这不是量的增长,是质的变化。因为Agent不是在生成一段答案,而是在不断调用模型、工具和外部系统,负载变得更复杂、更高频、更碎片化。
算力配比要重新洗牌
这就引出了英特尔的核心判断:在训练阶段,CPU和GPU的比例接近1:8,GPU扛大梁没问题。但进入Agent推理模式,CPU需要负责任务编排、工具调用、数据迁移和系统协调——CPU与GPU的比例会逐渐走向1:1,甚至需要更高的CPU密度。
这就是为什么英特尔在Computex上重点推了两件东西。一个是至强6+处理器:18A制程,288颗能效核,576MB三级缓存,专门针对Agentic AI和云原生负载设计。另一个是完全解耦推理方案:至强6负责编排执行,SambaNova RDU负责解码,NVIDIA GPU负责预填充——每种硬件做自己最擅长的事,不再把推理链路全部丢给GPU。这个思路比单纯堆GPU聪明得多。
端侧AI也在重新定义
不止数据中心。英特尔和Perplexity展示的混合式本地服务器,基于第三代酷睿Ultra和至强6+云端联动,能根据设备能力和任务类型在本地和云端之间动态分配负载。这个模式的意义在于:不是所有AI推理都要上云,隐私敏感的、低延迟的、高频小任务可以留在本地,降低了Token成本也保护了数据。
这和当前AIPC的趋势完全吻合。苹果在推M系列本地推理,高通在推骁龙X Elite,微软在推Project Polaris替代GPT。英特尔这次拿出来的不只是处理器,是一整套"CPU+GPU+RDU+端侧"的异构计算方案。
这事儿到底靠不靠谱
客观说,英特尔面前的压力不小。英伟达在AI加速器和CUDA生态上的优势还在,AMD在服务器CPU和AI芯片上也在猛攻。英特尔能不能把这条路走通,取决于18A制程的量产速度,也取决于客户能不能从这套异构方案里看到实打实的成本下降。
但至少这一次,英特尔的方向比过去几年都更清楚。AI进入Agent时代,竞争不再只是单颗芯片的峰值性能对比,而是整个计算系统的协同效率。GPU仍然重要,但CPU、RDU、端侧芯片,甚至是定制化ASIC,都会重新变得关键。如果这个判断成立,那过去两年"GPU是一切"的叙事,可能真的要改写了。

看完只有一个想法:如果Agent推理真的能让CPU占到50%的算力份额,那我司机房那几十台闲置的至强服务器突然就值钱了? 摸鱼党的春天要来了。
翻译成人话就是:现在AI圈像是一群人在比赛谁卡车马力大(GPU),英特尔说其实送货效率不只取决于卡车,还要看调度、路线规划和装卸效率(CPU+异构)。这个类比挺形象的。
这个视角不错。我们一直在讨论哪个GPU更强,但Agent时代确实需要重新想一个问题:所有推理都让GPU做,效率真的最高吗?异构解耦的思路在传统数据中心早就验证过了,只是AI圈过去两年被GPU冲昏了头。
作为天天写Prompt的人,我对"1000倍Token消耗"这个数字深有体会。Agent模式下一个任务可能触发几十次模型调用,每次都在烧Token。如果CPU能分担编排和调度的工作,理论上能省不少推理成本。
至强6+ 288核,576MB L3缓存,18A制程——参数看着唬人,但关键看实际跑Agent负载时能比纯GPU方案省多少成本。数据说话,其他都是噪音。等第三方跑分出来再说。