通义千问Qwen3.7-Max最近在Arena盲测里拿了个第一:得分56.6,超越Kimi、DeepSeek等国产模型,全球第五、国产第一。
56.6分意味着什么
Arena是AI圈比较公认的盲测榜单,用户的投票决定了模型排名。56.6分意味着Qwen3.7-Max的综合能力已经逼近GPT-4和Claude的水平。
国产模型里,之前表现最好的是Kimi和DeepSeek。现在Qwen3.7-Max把它们都超了,说明国产大模型的竞争进入了新阶段。
背后的支撑:真武M890芯片
有意思的是,这次Qwen3.7-Max跑在一个新芯片上——阿里巴巴5月20日发布的"真武M890"。
这颗芯片内置144GB高带宽内存,片间互联带宽800GB/s,原生支持FP32到FP4多种精度。官方说整体效能比上一代提升3倍。
更关键的是:在这颗芯片上,Qwen3.7-Max实现了35小时的超长智能代理任务——通过1000多次工具调用,完成关键内核的自我进化,推理速度比上一代提升10倍。
国产大模型进入冲刺阶段
从追赶GPT-3.5到逼近GPT-4,国产大模型只用了两年左右。现在Qwen3.7-Max的登顶,意味着国产阵营内部也在加速内卷。
这种竞争对用户是好事:模型越来越强,价格越来越低,应用场景越来越多。
不过,技术指标和实际体验之间还有差距。跑分高不代表在所有场景都好用,具体怎么选还是要看实际需求。

国产模型从追赶到并跑,这个进步速度确实快
千问终于发力了,之前一直在等它的更新
跑分归跑分,实际用起来谁更好还得看场景
真武M890芯片加持,芯片+模型一体化趋势明显
国产大模型竞争越来越激烈了,这对整个行业是好事