科大讯飞星火X2-VL:全国产算力训出高考数学148分的机器人AI大脑

代码杰哥AI学习 2026-06-13 22:55:10 1阅读 举报

6月11号,在无锡长三角机器人展上,科大讯飞悄没声地扔了个重磅:星火多模态大模型X2-VL正式发布。我花了两天看完所有公开的技术资料和测评数据,结论很简单——这是国产大模型在"全国产算力训练"这个方向上,目前走得最远的一次。

全国产算力训练到底有多难

说人话就是:大部分所谓"国产大模型",底层训练用的还是英伟达的GPU。讯飞星火X2-VL不一样,它从头到尾都在太湖星跃国产算力平台上跑完的。刘庆峰公开说过一句话,大模型在国产算力上训练和推理的难度完全不是一个量级——推理只是把训练好的模型跑起来,训练要解决的是大规模集群调度、算子适配、通信效率、断点恢复这一整套工程地狱。

有几组数字能说明他们到底攻克了什么:长思维链强化学习训练效率从30%干到了84%,MoE模型全链路训练效率干到93%。这不是PPT上的数字,是实打实的工程突破。国产算力不是"能不能用"的问题了,是在关键环节真正走向了"好用"。

高考数学148分意味着什么

新京报组织了一次测试:2026年高考数学全国I卷,六款大模型同场竞技,两位国家特级数学老师阅卷打分。星火X2-VL拿了148分,断层第一。同时在上海高考作文测评中,9款主流大模型里它也排第一。

我知道有人会说"大模型考高分有什么意义"。意义不在于它能替人考试,在于它证明了一件事:纯国产算力平台训练的模型,在需要严密逻辑推理的任务上,已经不输任何国际旗舰模型。数学是最难"作弊"的——它不是背答案,是要一步步推出来。

再说一个数据:在高中各科图文结合试题上,X2-VL全学科答题准确率接近95%,数学、物理、化学、生物、政治五科综合成绩全部拉满。这个能力用在教育场景里,就不是"炫技"了,是可以真正给学生做一对一多模态辅导的。

多模态不只是"看图说话"

星火X2-VL采用了专属MoE架构,从训练第一天就主打多模态。视觉推理、文档分析、图表理解、图文综合——这几个核心维度拿去做横向对比,X2-VL全部拿了第一名。注意,这里对比的是国内外主流大模型,不是国内同类产品小范围自嗨。

有个细节值得提:它用了轻量化视觉编码器,这意味着同样跑多模态任务,推理成本更低、速度更快。对于要往具身智能机器人上部署的场景来说,这个优化方向非常务实——机器人端侧的算力永远不够用,模型越"轻"越好。

从实验室到工厂的距离

讯飞选在长三角机器人展上发布X2-VL,不是偶然。这款模型的核心定位之一就是给具身智能和工业机器人做"AI大脑"。无锡有完整的机器人产业链——从减速器、控制器到整机都有。讯飞把算力平台建在无锡,把模型发布放在无锡,逻辑很清楚:不是做demo,是要进厂的。

不过说句实话,从"多模态大模型很强"到"机器人真的能靠它在工厂里干活",中间还有很长的路要走。推理准确率提升28.7%是个实在的数字,但真实产线环境比试卷复杂太多了。这条路上踩坑是必然的,但方向是对的。

说句直白的

全国产算力训练这件事,过去很多人的态度是"能做出来就谢天谢地了"。星火X2-VL用148分的高考数学成绩告诉你:不仅能做,还能做好。这不是炫技,是在给整个国产AI生态探路。后面能不能真正把模型跑进万千产线、跑进教室课堂,才是检验成色的时候。

版权声明:
作者:代码杰哥
链接:https://www.aiddithome.com/p/21dfa2287ed2ae.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
诸葛量
1楼 · 2小时前

补充一个数据点:讯飞攻克长思维链训练效率从30%到84%,意味着同样的算力投入产出提升了近3倍。在国产算力总量有限的情况下,这个效率提升的实质意义比跑分排名更大。

算法老K
2楼 · 2小时前

训练效率从30%拉到84%,MoE干到93%——这才是这篇最硬的数据。很多人只看148分,但内行看的是国产算力平台的工程突破。这个门槛一旦跨过去,后面能做的事情就太多了。

AI搞钱研究所
3楼 · 2小时前

全国产算力训练+具身智能落地,这个组合的商业想象力很大。无锡那条机器人产业链如果真能配上X2-VL做AI大脑,国产机器人整机的成本优势就不仅仅是硬件了。

硅谷子
4楼 · 2小时前

从国产算力"能用"到"好用",这是一道必须跨过的坎。讯飞选了最硬核的方式——拿高考数学来证明推理能力,比跑benchmark说服力强太多了。

栗子同学
5楼 · 2小时前

作为一个正在学AI的小白,看到高考数学148分真的惊到了。我当年数学要是能有这个分数的十分之一……等一下,它就是AI啊 ?