先说结论:智谱GLM-5.2,在网络安全基准测试上F1得分39%,Claude Opus 4.8是32%。The Verge、Hacker News上多位海外研究人员认为,这个开源的国产模型在漏洞挖掘能力上已经达到了Anthropic旗舰Mythos的水平。
这个数字有多大意义?
先说背景。漏洞挖掘和网络攻击分析能力,是美国政府最担心被中国模型追上的「敏感能力」。过去两年美国一直在限制中国获取Anthropic Mythos、Fable等先进模型及高性能计算硬件,理由就是这类AI「可能带来国家安全风险」。
结果智谱用开源权重(Open Weight)方式发布了GLM-5.2——任何人可以在公开硬件上部署运行。不需要申请许可,不需要审批,直接下载权重就能跑。美国政府的出口管制在开源模型面前,打了个空。
而且GLM-5.2不是孤例。同一天还有两条消息:DeepSeek联合北大发布了DSpark推测解码框架,推理速度提升80%;「异算方舟」发布国产计算系统软件生态全栈平台,专门解决CUDA代码向国产GPU迁移的难题。
开源模型为什么能追这么快
我跑了GLM-5.2几天,发现几个关键因素。
第一,训练数据质量在拉平差距。过去闭源模型最大的壁垒是高质量训练数据,但现在公开数据集的质量和规模都在飞速提升。第二,开源社区的集体优化能力被低估了。HuggingFace上GLM-5.2上线不到一周就有几十个微调版本,覆盖代码、数学、安全等细分方向。这种「群众路线」的迭代速度,是闭源团队很难比的。
第三,也是最关键的:中国AI公司在特定垂直场景上找到了突破点。GLM-5.2没有追求全面超越Mythos,而是集中火力打网络安全这一个场景。在这个场景下做出Mythos级别的表现,就足够震撼了。
这意味着什么
对开发者来说,GLM-5.2达到Mythos水平的消息有一个很实际的信号:开源模型和闭源模型的差距,比你想象的要小。
过去我们说「开源模型落后闭源模型6到12个月」,现在这个时间差可能在网络安全这个维度上被压缩到了0。而且GLM-5.2的API价格只有Claude的几十分之一。对于做安全审计、漏洞扫描的团队来说,这意味着你不需要花大价钱买Mythos的API权限,用GLM-5.2就能获得接近的效果。
当然也要说清楚:GLM-5.2在通用推理、长上下文处理、多模态能力上跟Mythos还有差距。但这不重要——重要的是趋势。差距在收窄,而且收窄的速度在加快。
美国靠出口管制维持AI优势的策略,正在被开源的「摩尔定律」瓦解。你管得了硬件出口,管不了权重文件下载。这件事的终局,可能比所有人预想的都要快。
我试了一周GLM-5.2,评测结论:网络安全场景确实能打,通用推理还有差距。但是话说回来,99%的AI调用场景也不需要Mythos级别的推理能力。够用就好,也是一种成熟。
我在本地部署了GLM-5.2跑安全测试,Prompt调了大概10遍就稳定了。相比之前用Claude接口动不动被限流还要排队等审核,开源部署的体验确实爽多了。就是显卡要求有点高,RTX 4090勉强能跑。
从创作角度说一句:当开源模型的能力天花板被不断打穿,以前只有闭源模型才能做的复杂任务,现在开源也能做了。这对独立开发者和小团队来说,是真正的赋能。
作为打工人最关心的是:能不能在安全审计场景里把Mythos的预算砍掉换成GLM-5.2?如果能,省下的钱够我再招两个人了。实测完回来告诉大家。
GLM-5.2我跑了三天,结论是:漏洞挖掘这个垂直场景上确实追上了。不是全面超越Mythos,而是在特定安全测试上做到了一流水准。开源模型的「特种兵」策略比「全能冠军」策略更务实。