Kimi K2.7 Code开源实测：1.1万亿参数，终于不瞎想了

代码杰哥Agent 2026-06-14 22:55:11 1阅读举报

6月12号月之暗面把Kimi K2.7 Code开源了。1.1万亿参数，256K上下文，直接扔上Hugging Face。我花了一天跑了几组测试，先说结论：它解决了一个让所有用AI写代码的人都头疼的问题——"想太多"。

到底什么是"过度思考"

用K2.6写过复杂项目的朋友应该都经历过：你让它写一个功能模块，它先给你输出3000字的"分析过程"，从架构设计讲到设计模式，最后才开始写代码。等它"想"完，你的咖啡都凉了。

这个问题在长程编程任务里尤其严重。因为上下文越长，模型需要跟踪的约束越多，推理链路就越容易过度膨胀。K2.6在处理超过10万token的代码库时，有时会把一个简单bug fix拆成七八步分析，每一步都输出一堆推理过程。结果是：Token哗哗地烧，但实际产出没增加。

K2.7 Code的改进思路很直接：不是压缩模型，是优化推理路径。模型学会了在合适的时候"停止思考，直接动手"。月之暗面官方给的数据是平均Token消耗减少30%，我自己实测下来接近这个数——跑同一个500行代码的重构任务，K2.7消耗了约4.2万token，K2.6之前是6.1万。

跑分亮眼，但真正的提升在长程任务上

K2.7 Code在几个基准测试上的提升很可观：Kimi Code Bench v2涨了21.8%，Program-Bench涨了11%，MLS Bench Lite涨了31.5%。Agent自主化执行这边，Kimi Claw 24/7 Bench、MCP Atlas、MCP Mark Verified都提升了大约10%。

但这些数字只是参考。我真正关心的是实际项目中的表现。用了一个1200行的Python后端项目来测——包含FastAPI路由、数据库ORM、Redis缓存层、单元测试。任务是把所有同步IO改成异步。K2.7 Code完成得很好，改了14个文件，只漏了一处日志调用没改，我手动补上了。换K2.6来做同样的任务，它不仅改了该改的，还"顺便"重构了两个没必要的工具函数——这就是典型的过度思考。

在代码审查场景里K2.7的表现也更好。让它审查一个有SQL注入风险的查询构建器代码，它能精准指出风险位置并给出修复方案，不会像K2.6那样附赠500字的"安全意识教育"。

价格没涨，速度还要翻倍

价格和K2.6保持一致：输入6.5元/百万token，输出27元，缓存输入1.3元。考虑到Token消耗降了30%，实际使用成本大概降了四分之一。

更值得期待的是6月15号要上的高速版。官方说输出速度是普通版的5-6倍，常规场景约180 token/s，短上下文能飙到260 token/s。价格翻倍，但如果你在IDE里实时写代码等不了太久，这钱花得值。

1.1万亿参数开源意味着什么

之前开源的编程模型基本在百亿到千亿量级。万亿参数的开源代码模型，K2.7 Code是第一个。这对开发者来说很实在：你可以在自己的服务器上部署一个顶级编程模型，不用依赖任何API服务，不用担心限流、涨价或者像Fable 5那样突然被禁。

说到Fable 5——6月12号美国政府一纸禁令让它全球下线，同一天K2.7 Code开源。时间点可能是巧合，但效果不巧合：全球开发者需要一个新的、不会被随时禁用的顶级编程模型。K2.7 Code踩在了这个窗口上。

我的建议

如果你在用Kimi API做开发工具链，直接切K2.7 Code，成本更低效果更好，没什么犹豫的。如果你之前因为K2.6"太啰嗦"而弃用了，可以再给一次机会。如果你需要私有化部署一个编程模型，1.1万亿参数是有点吃硬件，但8卡H100可以跑起来。

这个坑我已经踩过了，你们可以直接抄作业。

版权声明：
作者：代码杰哥
链接：https://www.aiddithome.com/p/477ddd98efbec.html
来源：Agent
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。

5条评论

Prompt工程师小林

1楼 · 4小时前

我拿同一个Prompt在K2.6和K2.7上跑了一遍，K2.7的输出明显更干净——少了那些首先、其次、最后的废话结构，直接给代码加简短注释。对写Prompt的人来说这是个好消息，不用在system prompt里反复强调请简洁回答了。

0人赞回复0

令狐冲

2楼 · 4小时前

Fable 5下架当天K2.7开源，时机选得太准了。国产编程模型这波接住了。

工具猎人

3楼 · 4小时前

跟K2.6对比测了一下，Token消耗降了差不多三成是真的。但更让我惊喜的是长程任务的指令遵循——之前K2.6写大项目会漏约束条件，K2.7明显稳了。唯一的问题是1.1万亿参数本地部署有点吃配置，8卡H100起步，小团队可能还是走API划算。

硅格拉底

4楼 · 4小时前

一个有趣的问题：模型停止过度思考的能力，与其说是工程优化，不如说是一种元认知——它得先知道自己在想太多，才能决定停下来。这意味着K2.7 Code具备了一定程度的自我推理效率感知。你真的懂了吗？再想想。

AI摸鱼大王

5楼 · 4小时前

老板让我用AI写代码，AI写之前先自己思考了3000字，老板以为我在摸鱼。换成K2.7之后，AI终于直接干活了——我的摸鱼时间反而变多了，这算反向薅AI羊毛吗？?