6月初的COMPUTEX 2026上,黄仁勋扔了一颗炸弹。不是新显卡,不是新服务器芯片,而是一颗面向个人电脑的超级芯片——RTX Spark。我当时在线上蹲完了整场发布会,看完规格表后只有一个感受:PC行业这次是来真的。
先不吹,我说说这个芯片到底是个什么东西。
一颗芯片,两种身份
传统PC里,CPU和GPU各干各的,中间靠PCIe通道传数据。跑大模型的时候最大的痛点是什么?显存不够。大部分笔记本独立显卡显存8GB封顶,跑个7B模型都勉强,70B根本不用想。
RTX Spark不走这条路。它用的是和联发科联合开发的GB10超级芯片——台积电3nm工艺,一颗芯片里集成了20核Grace CPU(10个X925性能核+10个A725能效核)和基于Blackwell架构的GPU(6144个CUDA核心)。关键是内存架构:最高128GB LPDDR5X统一内存,CPU和GPU共享同一块池子,不需要拷贝。带宽300GB/s起,高配到600GB/s。
说人话:你可以在本地跑1200亿参数的大语言模型,支持100万token的上下文长度。不是云端调用,是真本地跑。AI算力标称1 PetaFLOP。
跟谁比都降维打击
当前所谓的「AI PC」——骁龙X Elite或者Intel Lunar Lake——NPU算力也就40到50 TOPS。一个PetaFLOP是1000 TFLOPS,按INT8来算大概对应2000 TOPS。你感受一下这个差距。不是20%,是几十倍。
更重要的是RTX Spark不是NPU那种只能跑量化小模型的东西。它有完整的CUDA生态。全球600万CUDA开发者,PyTorch、TensorFlow默认走CUDA后端,这些积累不需要从头学。过去在几万美元一块的数据中心GPU上跑CUDA的那批人,现在可以在笔记本上写CUDA了。
微软赌上了Windows的未来
微软不是简单地「支持」RTX Spark。在Build 2026大会上,纳德拉把Windows重新定义为「本地AI Agent的原生运行平台」。Windows AI Runtime会做一套系统级AI服务:DirectML API升级、模型目录管理、甚至多个应用能共享同一个下载好的模型文件。
现场演示了Surface RTX Spark DevBox,网线拔了跑代码翻译、会议转录、自然语言搜文件——全部离线完成。这对开发者来说意味着什么?你在飞机上也能调试70B模型了。不需要付API费用,不需要担心数据传到云端。
不止是AI,游戏和创作也在翻倍
Adobe已经在为RTX Spark重构Photoshop和Premiere。统一内存架构意味着AI降噪、编辑、调色、特效可以同时跑而不用在CPU和GPU之间搬数据,官方说创意工作流速度最高翻倍。你可以在轻薄本上渲染超过90GB的3D场景,编辑12K专业视频。
游戏方面,支持完整的RTX光追、DLSS 4.5和Reflex低延迟。1440p下3A大作超100帧。微软确认原生支持堡垒之夜、无畏契约等主流游戏的反作弊软件。Arm兼容性这块,微软Prism模拟层已经比较成熟,x86应用基本能跑,原生Arm64应用也在加速。
什么时候能买到,多少钱
华硕、戴尔、惠普、联想、微星、微软Surface全线站台,首批RTX Spark笔记本2026年秋季上市。欧洲曝光的联想Yoga Pro 7顶配(20核+6144 CUDA核心+64GB内存+1TB)约4049欧元,折合人民币32000左右。入门级16GB内存起步,价格会亲民很多。
英伟达还公布了三天路线图:Blackwell→Vera→Feynman,一口气铺到2030年。这说明不是试水,是长期押注。
结论
RTX Spark不是在抢Intel或AMD的份额,它是在重新定义PC能干什么。过去我们说PC是「个人计算机」,黄仁勋要把它变成「个人AI」。如果你现在的笔记本跑7B模型都费劲,那这个东西确实值得关注。当然,第一代产品一般都有些坑,软件生态也需要时间,但方向是对的。
我的建议:手上有能用的笔记本就先别急,等首批测评出来再说。如果你正准备换电脑而且有本地跑大模型的需求,可以把它放进观察清单。毕竟第一批量产产品,等真实用户跑两个月再说。
作为小白最关心的是:这个买回来能干嘛?如果只是跑聊天机器人那跟用网页版没区别……希望微软和开发者能做出真正有用的本地AI应用
老黄:我们把数据中心塞进了笔记本 我:然后标价4049欧元 钱包:我选择继续用API?
关键数据:当前AI PC的NPU算力40-50 TOPS,RTX Spark约2000 TOPS。这不是迭代,是跨代。但Arm兼容性仍然是最大变数
CUDA生态是RTX Spark最大的隐形资产。600万CUDA开发者,不用学新框架,开箱就能跑。这个迁移成本优势Intel和AMD追不上
本地跑120B模型这个需求本身有点超前,但关键是统一内存架构。跑不了120B可以跑70B,跑不了70B可以跑13B,关键是数据不用拷来拷去了