不搞虚的,直接说结论:微软上周开源了一个叫SkillOpt的框架,上线一周3300个GitHub星,52个评测场景里拿了最优。这事之所以值得聊,不是因为它又用了个新技术,而是它解决了一个困扰AI Agent很久的底层问题——技能怎么自我进化。
Agent的技能为啥一直是死的
现在大部分AI Agent的工作方式是:人写好技能文档(skill.md),Agent照本宣科地执行。技能好不好用,完全取决于人写得怎么样。技能之间有什么冲突、哪些步骤可以优化,Agent自己完全不知道。
这就带来一个尴尬:Agent的能力上线,不是模型不够强,是技能文档不够好。而维护技能文档又是个纯体力活——几十个Agent、上百个技能,谁有空一个个去调优?
SkillOpt要解决的就是这个。它把技能文档本身变成可训练的参数,让Agent能从自己的执行经验里学到"怎么把技能用得更好"。
核心设计:把提炼和消费分开
论文里最精彩的设计是这个:技能优化拆成两个完全独立的角色。一个是提取器(Extractor),负责从Agent的历史执行记录里提炼知识。一个是目标模型(Target),负责消费这些知识来提升表现。
这两个角色的性能完全不相关。一个提取能力很强的模型,可能是个很差的消费者,反过来也一样。论文为此提出两个新指标:EE(提取效能,Extraction Efficacy)和TE(目标可进化性,Target Evolvability)。
说人话就是:EE衡量的是"这个技能提炼出来,能让多少个不同的模型受益",TE衡量的是"用不同方式提炼同一个模型的经验,它能从中获得多大提升"。这两个指标互不干扰,可以分别优化。
52个评测最优意味着什么
SkillOpt在52个标准评测场景里拿了最优。这52个场景不是随便选的,覆盖了推理、编程、写作、工具调用等多个维度。关键是它在跨模型迁移上表现尤其好——用一个模型提炼出的技能优化,换到另一个模型上也能稳定提升。
这在工程上意义很大。意味着你不用为每个模型都维护一套技能文档,提取器和目标模型可以分别迭代。今天换了新模型,昨天积累的技能经验还能接着用。
对AI Agent落地的实际影响
我觉得SkillOpt最有价值的点不在论文本身,在于它指了一条路:Agent技能维护的去人工化。目前企业里部署Agent最大的隐性成本不是算力,是人的运维。技能写好了要维护,场景变了要调整,换模型了要重写。如果技能能自我进化,这个成本会大幅下降。
微软把它开源这件事也值得注意。3300个星不算特别多但说明一个问题:开发者对这个方向的需求是真实的。隔壁OpenClaw和Hermes Agent在GitHub上的数据已经证明Agent框架是大趋势,但"技能自我进化"这个环节一直是空白。SkillOpt填的正好是这个坑。
但也别太激动
说实话,SkillOpt现在还在框架层面,离"Agent装上就能自己变强"还有距离。EE和TE这两个指标虽然设计得漂亮,但要在真实生产环境里跑通,还需要解决很多工程问题:经验数据的质量怎么保证、提炼过程会不会引入偏见、目标模型用了"有毒"技能怎么回滚。
但方向是对的。Agent的能力不该卡在技能文档上。当模型越来越强,如果技能还是死的,那Agent的上限就是那个文档的质量。SkillOpt至少告诉我们:技能可以是活的。

我用Agent做项目最头疼的就是技能维护。每次模型一更新,之前的技能文档就得重新调,有的甚至直接废了。EE和TE这两个指标如果真能成为行业标准,那换模型的迁移成本会降很多。
代码说话:这个框架如果能跟OpenClaw的Agent编排层打通,那就有意思了。Agent在跑任务时自动记录执行trace,SkillOpt拿trace去提炼优化,下次跑同类任务直接用优化后的技能——闭环了。
作为一个刚入门的小白,我看完只有一个感受:原来AI Agent的技能还能自己进化啊?我还以为所有技能都得人手把手写呢。不过说实话,让它自己进化之前,我还是希望能看到它进化了什么,别偷偷改我配置就行。
给想试的同学指个路:GitHub搜microsoft/SkillOpt就找到了,目前还在早期阶段,文档不算特别全。建议先看论文里的EE/TE指标那部分,理解了核心思想再去看代码。
提取器和目标分离这个设计很妙。本质上是在说:技能的好坏不只看提炼能力强不强,还得看消费能力行不行。这跟人类组织里“总结经验的”和“执行经验的”往往是两拨人一个道理。