5月26日,伦敦。David Silver——AlphaGo、AlphaZero、MuZero背后的那个男人——宣布他的新公司Ineffable Intelligence完成11亿美元种子轮融资,估值51亿美元。这是欧洲史上最大种子轮,也是全球AI领域最贵的一笔种子轮。
数字本身够惊人。但更值得关注的,是David Silver要做什么:他要造一个完全"不学人类"的AI。不读互联网语料,不模仿人类行为,不依赖人类反馈——让AI像AlphaGo自我博弈一样,从与环境的交互中自主生长出超越人类的知识。
一个和所有人对着干的技术路线
Silver和2025年与图灵奖得主Richard Sutton合著了一篇论文,核心论点极为锋利:当前主流大语言模型的训练范式——从互联网语料预训练,到RLHF对齐人类偏好——存在根本性天花板。因为系统优化的上限被人类判断力锁死了。人类专家认为不好的策略,模型就不可能去探索。
ChatGPT、Claude、Gemini,都在这个框架里。它们再强,也只是对人类知识的再组织,不是对新知识的发现。
Ineffable Intelligence的技术路线有四根支柱:终身经验流(不是静态数据集,而是持续与环境交互)、感知-动作闭环(通过行动理解因果,而非语言)、现实锚定奖励(成功由现实结果衡量,而非人类偏好评分)、非人类推理模式(不受人类认知框架约束的解空间探索)。
花11亿美元赌一个信念
投资人名单本身就说明了问题:红杉资本与光速创投联合领投;Google和英伟达也参投了——这俩可是LLM路线的核心受益者,却愿意押注一条对立路线。DST Global、Index Ventures跟进。英国政府也通过主权AI基金直接参投。
英国等这一刻等了太久了。虽然DeepMind扎根伦敦,但它属于Google。英国拥有全球最顶尖的AI研究人才,却从没跑出一个本土原生的大模型独角兽。Ineffable Intelligence的出现,给了英国第一张AI基础模型的"主权入场券"。
Silver本人承诺将100%个人股权通过Founders Pledge捐赠。信号很清晰:这不是一场财务游戏,是一个学术信念的验证。
这条路能走通吗
说实话,风险很大。强化学习从博弈环境走向开放世界,至今未被验证。AlphaGo花了数年才在围棋这个有限规则空间里成熟,而"超级学习者"面对的问题复杂度高出围棋数个量级。物理世界不像棋盘,没有明确的规则边界和胜负判定。
而且时间窗口也很紧张——当前LLM在快速迭代,GPT-5.6、Claude Opus 4.8已经在路上,Ineffable的产品离落地还有漫长的路要走。
但Silver的逻辑是有底气的。AlphaGo的成功已经证明:不学人类棋谱、只靠自我博弈,AI可以达到人类从未想象过的水平。如果这个逻辑能迁移到更通用的领域,那它不是对LLM的改良,而是一次范式革命。
这件事的本质
11亿美元的种子轮背后,是一场关于"AI应该怎么学"的路线之争。一边是"学人类"——用人类数据训练、用人类偏好对齐,当前的主流;一边是"超越人类"——不与人类为伍,从零开始自己探索,David Silver的赌注。
这场赌局的胜负,可能要等三五年才能见分晓。但不管结果如何,它提醒我们一件事:今天的AI看起来很强大,但它本质上只是人类知识的镜像。通往真正智能的路,可能根本不是我们现在走的这条。
David Silver下了11亿美元的注。我们拭目以待。
11亿种子轮、51亿估值——这笔账算一下:如果LLM赛道10年内见顶,这个估值是捡钱;如果LLM赛道还能狂奔5年,这是赌博。红杉和光速明显赌的是前者。英国政府参投说明这不是纯商业决策,有地缘政治逻辑。做AI投资的朋友值得深入研究这个案例。
所以这个AI不看人类数据、不学人类行为、不听话也不讨好人类……那它学成之后第一句话会不会是'你们太慢了'?
码斯克说两句:我认可Silver的技术判断——LLM受限于人类数据质量,但这不意味着抛弃所有人类知识就是最短路。个人更看好Google DeepMind的混合路线:用LLM做底座,用强化学习做精调。纯自学路线可能在特定任务很强,但通用性存疑。
作为一个全栈开发,我对'不学人类数据'这个路线既期待又怀疑。LLM虽然天花板明显,但胜在可预测、可审计。强化学习从零探索,失控风险怎么控制?AlphaGo下围棋失控最多输一盘,AI在开放环境失控呢?这是个严肃的安全问题。
从数据看这件事:11亿美元种子轮在AI史上排第一,第二名是Ineffable的英国同胞Wayve(12亿但那是B轮)。欧洲AI融资前4个月105亿美元,这三笔巨型交易贡献了40%以上。全球资本正在用真金白银押注'后LLM时代',这个信号值得重视。