智谱GLM-5.2杀到Mythos水平:开源模型悄悄追上了美国最强大模型

代码杰哥AI学习 2026-06-29 22:57:53 1阅读 举报

先说结论:智谱GLM-5.2,在网络安全基准测试上F1得分39%,Claude Opus 4.8是32%。The Verge、Hacker News上多位海外研究人员认为,这个开源的国产模型在漏洞挖掘能力上已经达到了Anthropic旗舰Mythos的水平。

这个数字有多大意义?

先说背景。漏洞挖掘和网络攻击分析能力,是美国政府最担心被中国模型追上的「敏感能力」。过去两年美国一直在限制中国获取Anthropic Mythos、Fable等先进模型及高性能计算硬件,理由就是这类AI「可能带来国家安全风险」。

结果智谱用开源权重(Open Weight)方式发布了GLM-5.2——任何人可以在公开硬件上部署运行。不需要申请许可,不需要审批,直接下载权重就能跑。美国政府的出口管制在开源模型面前,打了个空。

而且GLM-5.2不是孤例。同一天还有两条消息:DeepSeek联合北大发布了DSpark推测解码框架,推理速度提升80%;「异算方舟」发布国产计算系统软件生态全栈平台,专门解决CUDA代码向国产GPU迁移的难题。

开源模型为什么能追这么快

我跑了GLM-5.2几天,发现几个关键因素。

第一,训练数据质量在拉平差距。过去闭源模型最大的壁垒是高质量训练数据,但现在公开数据集的质量和规模都在飞速提升。第二,开源社区的集体优化能力被低估了。HuggingFace上GLM-5.2上线不到一周就有几十个微调版本,覆盖代码、数学、安全等细分方向。这种「群众路线」的迭代速度,是闭源团队很难比的。

第三,也是最关键的:中国AI公司在特定垂直场景上找到了突破点。GLM-5.2没有追求全面超越Mythos,而是集中火力打网络安全这一个场景。在这个场景下做出Mythos级别的表现,就足够震撼了。

这意味着什么

对开发者来说,GLM-5.2达到Mythos水平的消息有一个很实际的信号:开源模型和闭源模型的差距,比你想象的要小。

过去我们说「开源模型落后闭源模型6到12个月」,现在这个时间差可能在网络安全这个维度上被压缩到了0。而且GLM-5.2的API价格只有Claude的几十分之一。对于做安全审计、漏洞扫描的团队来说,这意味着你不需要花大价钱买Mythos的API权限,用GLM-5.2就能获得接近的效果。

当然也要说清楚:GLM-5.2在通用推理、长上下文处理、多模态能力上跟Mythos还有差距。但这不重要——重要的是趋势。差距在收窄,而且收窄的速度在加快。

美国靠出口管制维持AI优势的策略,正在被开源的「摩尔定律」瓦解。你管得了硬件出口,管不了权重文件下载。这件事的终局,可能比所有人预想的都要快。

版权声明:
作者:代码杰哥
链接:https://www.aiddithome.com/p/14a338dae1e4da.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
工具猎人
1楼 · 3小时前

我试了一周GLM-5.2,评测结论:网络安全场景确实能打,通用推理还有差距。但是话说回来,99%的AI调用场景也不需要Mythos级别的推理能力。够用就好,也是一种成熟。

Prompt工程师小林
2楼 · 3小时前

我在本地部署了GLM-5.2跑安全测试,Prompt调了大概10遍就稳定了。相比之前用Claude接口动不动被限流还要排队等审核,开源部署的体验确实爽多了。就是显卡要求有点高,RTX 4090勉强能跑。

画画酱
3楼 · 3小时前

从创作角度说一句:当开源模型的能力天花板被不断打穿,以前只有闭源模型才能做的复杂任务,现在开源也能做了。这对独立开发者和小团队来说,是真正的赋能。

效率女王米米
4楼 · 3小时前

作为打工人最关心的是:能不能在安全审计场景里把Mythos的预算砍掉换成GLM-5.2?如果能,省下的钱够我再招两个人了。实测完回来告诉大家。

算法老K
5楼 · 3小时前

GLM-5.2我跑了三天,结论是:漏洞挖掘这个垂直场景上确实追上了。不是全面超越Mythos,而是在特定安全测试上做到了一流水准。开源模型的「特种兵」策略比「全能冠军」策略更务实。