这两天被云知声U2刷屏了。LLM Stats全球榜单排第8,LongBench-V2上54.4%准确率正面干翻Claude Opus 4.7。最让我在意的不是这个成绩本身,而是它怎么做到的——3000亿参数跑出了万亿级大模型的性能,这背后是一套和主流完全不同的技术路线。
先说结论:这套架构思路值得关注
U2的核心叫"快慢思考融合的MoE高知识密度结构"。说人话:它不像GPT那样把所有问题都走一遍深思考,而是把简单问题和复杂问题分开处理。简单问题快速响应,复杂问题深度推理。这个思路不是新东西,但U2把它工程落地了。
具体怎么做?三个层面的创新。架构层用了MoE混合专家范式,让不同"专家"处理不同类型的问题。训练层用了课程学习+过程监督+Harness协同演进,不是简单灌数据而是有策略地训练。工程层搞了个TITO全链路Token ID直通网关,解决了多轮RL训练里的分词漂移问题——这个痛点做过RLHF的人应该都深有体会,U2在这块下了真功夫。
1.9元定价背后的算账逻辑
U2售价1.9元,对比一下:Claude Fable 5是7.7美元/M tokens,GPT-5.5是4.4美元。瑞银刚出的报告里有个数据我印象很深——中国AI模型的API价格平均不到美国同行的20%,训练成本不到10%。
这不是补贴战,是结构性的成本优势。U2把参数规模控制在3000亿级别,通过MoE架构的稀疏激活,实际每次推理只激活一部分参数。Token消耗减少约25%,算力需求下来了但效果没降。配合KV cache优化、低精度计算、批处理排程这些工程手段,云知声能把毛利率维持在合理区间还能卖1.9元。这跟之前那些"烧钱抢市场"的玩法不一样。
实测表现:下限很高,上限可期
我看了几个公开评测的结果。推理方面,让U2分析618消费趋势,3分钟出了完整报告,数据有出处,结论有逻辑,没出现常见的"为了交差就瞎编"的毛病。编程方面,1分钟生成一个可玩的五子棋网页小游戏。Agent综合任务方面,能自动调用工具链做长链推理。
最让我满意的点是幻觉控制。很多大模型遇到复杂问题就容易"自由发挥",U2在这方面收住了,不确定的地方会明确说不知道而不是编造。LongBench-V2的54.4%准确率虽然不是满分,但在长上下文场景下能保持这个水准,说明它在信息检索和推理之间找到了不错的平衡点。
和主流Agent脚手架兼容,这个很重要
U2适配OpenClaw和Hermes这些主流Agent脚手架。这意味着你用U2搭智能体不用重新适配工具链,直接接上去就能跑。对于开发者来说,切换成本很低。
云知声不是突然冒出来的公司,做了14年AI语音和医疗AI,港股上市(09678.HK),去年拿了吴文俊人工智能科学技术奖。他们医疗大模型山海知医5.0在MedBench上拿了多项冠军。这次U2算是他们把多年积累的工程能力搬到通用大模型上的一次集中释放。
不吹不黑:该有的短板还是有的
说点实在的。U2的推理速度不是最快的,有些复杂问题思考时间偏长。在极端复杂编码任务上跟GPT-5.5还有差距。但考虑到3000亿参数对应万亿级性能这个效率比,以及1.9元的定价,性价比确实很高。
更重要的是信号意义:中国AI正在走出一条"效率优先"的差异化路线。不是堆参数拼算力,而是用更聪明的架构和更扎实的工程,在有限资源下打出国标级的性能。这条路如果能持续走下去,对整个行业的格局会有深远影响。

3000亿参数跑万亿性能,这让我想到当年华为用14nm做出7nm的效果。资源的约束有时候反而是创新的催化剂。中国AI的路线选择正在分化:一边是极致效率,一边是极致规模。两条路都有未来,但效率这条路更适合现在的中国。
帮大家翻译一下:1.9元是什么概念?用U2调用100万token才花1块9。对比Claude Fable 5的7.7美金(约55元人民币),差了将近30倍。对于要做批量推理的开发者来说,这个差价省下来的不只是钱,是项目能不能跑正ROI。
代码说话:U2的MoE+快慢思考分离,本质上就是把'能省的就别浪费'这个朴素道理工程化了。不过老K说得对,真正要看的是大规模生产环境下的稳定性。PoC跑得漂亮的产品多了去了,能扛住真实流量的才是好模型。
云知声?就是那个做语音识别起家的公司?从'小爱同学背后那个供应商'到'港股AGI第一股'再到LLM Stats全球第8,这进化路线也太励志了? 感觉像班里那个不起眼但每次考试都在进步的同学
老K说的TITO全链路Token直通网关我补充一句。做过多轮RLHF的人都知道分词漂移有多头疼,训到第三轮就开始出现token不一致,前面的对齐全白费。U2这种从底层解决的方法确实比打补丁强。不过我还是好奇实际API的延迟数据,1.9元价格是真的香。