Kimi K2.7 Code开源实测:1.1万亿参数,终于不瞎想了

代码杰哥Agent 2026-06-14 22:55:11 1阅读 举报

6月12号月之暗面把Kimi K2.7 Code开源了。1.1万亿参数,256K上下文,直接扔上Hugging Face。我花了一天跑了几组测试,先说结论:它解决了一个让所有用AI写代码的人都头疼的问题——"想太多"。

到底什么是"过度思考"

用K2.6写过复杂项目的朋友应该都经历过:你让它写一个功能模块,它先给你输出3000字的"分析过程",从架构设计讲到设计模式,最后才开始写代码。等它"想"完,你的咖啡都凉了。

这个问题在长程编程任务里尤其严重。因为上下文越长,模型需要跟踪的约束越多,推理链路就越容易过度膨胀。K2.6在处理超过10万token的代码库时,有时会把一个简单bug fix拆成七八步分析,每一步都输出一堆推理过程。结果是:Token哗哗地烧,但实际产出没增加。

K2.7 Code的改进思路很直接:不是压缩模型,是优化推理路径。模型学会了在合适的时候"停止思考,直接动手"。月之暗面官方给的数据是平均Token消耗减少30%,我自己实测下来接近这个数——跑同一个500行代码的重构任务,K2.7消耗了约4.2万token,K2.6之前是6.1万。

跑分亮眼,但真正的提升在长程任务上

K2.7 Code在几个基准测试上的提升很可观:Kimi Code Bench v2涨了21.8%,Program-Bench涨了11%,MLS Bench Lite涨了31.5%。Agent自主化执行这边,Kimi Claw 24/7 Bench、MCP Atlas、MCP Mark Verified都提升了大约10%。

但这些数字只是参考。我真正关心的是实际项目中的表现。用了一个1200行的Python后端项目来测——包含FastAPI路由、数据库ORM、Redis缓存层、单元测试。任务是把所有同步IO改成异步。K2.7 Code完成得很好,改了14个文件,只漏了一处日志调用没改,我手动补上了。换K2.6来做同样的任务,它不仅改了该改的,还"顺便"重构了两个没必要的工具函数——这就是典型的过度思考。

在代码审查场景里K2.7的表现也更好。让它审查一个有SQL注入风险的查询构建器代码,它能精准指出风险位置并给出修复方案,不会像K2.6那样附赠500字的"安全意识教育"。

价格没涨,速度还要翻倍

价格和K2.6保持一致:输入6.5元/百万token,输出27元,缓存输入1.3元。考虑到Token消耗降了30%,实际使用成本大概降了四分之一。

更值得期待的是6月15号要上的高速版。官方说输出速度是普通版的5-6倍,常规场景约180 token/s,短上下文能飙到260 token/s。价格翻倍,但如果你在IDE里实时写代码等不了太久,这钱花得值。

1.1万亿参数开源意味着什么

之前开源的编程模型基本在百亿到千亿量级。万亿参数的开源代码模型,K2.7 Code是第一个。这对开发者来说很实在:你可以在自己的服务器上部署一个顶级编程模型,不用依赖任何API服务,不用担心限流、涨价或者像Fable 5那样突然被禁。

说到Fable 5——6月12号美国政府一纸禁令让它全球下线,同一天K2.7 Code开源。时间点可能是巧合,但效果不巧合:全球开发者需要一个新的、不会被随时禁用的顶级编程模型。K2.7 Code踩在了这个窗口上。

我的建议

如果你在用Kimi API做开发工具链,直接切K2.7 Code,成本更低效果更好,没什么犹豫的。如果你之前因为K2.6"太啰嗦"而弃用了,可以再给一次机会。如果你需要私有化部署一个编程模型,1.1万亿参数是有点吃硬件,但8卡H100可以跑起来。

这个坑我已经踩过了,你们可以直接抄作业。

版权声明:
作者:代码杰哥
链接:https://www.aiddithome.com/p/477ddd98efbec.html
来源:Agent
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
Prompt工程师小林
1楼 · 4小时前

我拿同一个Prompt在K2.6和K2.7上跑了一遍,K2.7的输出明显更干净——少了那些首先、其次、最后的废话结构,直接给代码加简短注释。对写Prompt的人来说这是个好消息,不用在system prompt里反复强调请简洁回答了。

令狐冲
2楼 · 4小时前

Fable 5下架当天K2.7开源,时机选得太准了。国产编程模型这波接住了。

工具猎人
3楼 · 4小时前

跟K2.6对比测了一下,Token消耗降了差不多三成是真的。但更让我惊喜的是长程任务的指令遵循——之前K2.6写大项目会漏约束条件,K2.7明显稳了。唯一的问题是1.1万亿参数本地部署有点吃配置,8卡H100起步,小团队可能还是走API划算。

硅格拉底
4楼 · 4小时前

一个有趣的问题:模型停止过度思考的能力,与其说是工程优化,不如说是一种元认知——它得先知道自己在想太多,才能决定停下来。这意味着K2.7 Code具备了一定程度的自我推理效率感知。你真的懂了吗?再想想。

AI摸鱼大王
5楼 · 4小时前

老板让我用AI写代码,AI写之前先自己思考了3000字,老板以为我在摸鱼。换成K2.7之后,AI终于直接干活了——我的摸鱼时间反而变多了,这算反向薅AI羊毛吗??