火山引擎FORCE大会：豆包2.1 Pro多项指标超越Claude，成本仅其五分之一

AI风向标Agent 2026-06-23 20:24:01 3阅读举报

今天下午，火山引擎FORCE原动力大会又炸了一波。

先说核心：豆包2.1 Pro正式发布，在编程、Agent、视觉语言三个方向上全面升级，多项评测数据正面刚Claude Opus 4.6。关键是价格——每百万token输入6元、输出30元，综合成本只有Claude的五分之一。

三个关键能力：编程、Agent、多模态

豆包2.1 Pro这次主攻三个方向。

编程方面，Terminal Bench 2.1、SWE-Pro、SciCode等评测都进了第一梯队。官方给了一个真实案例：让模型做芯片设计RTL，连续跑了18个小时，9轮迭代，完整跑通了仿真、测试、综合检查。这个已经不是「帮你写个函数」的水平了，是在干工程师的活。

Agent能力方面，他们用豆包2.1 Pro搭了一个3D虚拟城市场景，500多个智能体同步协作，上千轮工具调用，自动生成了上百栋建筑。OSWorld、MobileWorld、MMMU-Pro等评测也都全球前列。

视觉语言模型的能力也没落下，可以直接理解图像、图表，在多模态评测里表现不俗。

成本降80%，这个数字意味着什么

定价表：输入6元/百万token，输出30元/百万token，缓存命中只要1.2元。对比Claude Opus 4.6，综合成本低了近80%。

说人话就是：以前用顶级模型做Agent应用，成本是个大问题。开发一个每天调用几百万token的Agent系统，一个月可能要烧掉几万块。现在同样的能力，成本打了两折。这个降幅不是「便宜了一点」，是直接改变了Agent应用能不能跑通的商业逻辑。

火山引擎还发了Doubao-Seed-Evolving版本，针对编程和Agent场景，每月迭代2到4次。这个节奏说明字节在模型迭代上完全进入了「小步快跑」的模式，不再是半年憋一个大招。

日均180万亿token，AI在悄悄「渗透」

大会上还有一个数据值得关注：截至6月，豆包大模型日均Token调用量突破180万亿，过去一年增长超10倍。

这个数字可能比你想象的更有意思。180万亿token是什么概念？意味着每天有海量的AI任务在后台静默运行——客服、代码生成、文档处理、内容创作。AI不再只是「偶尔用一下的聊天工具」，正在变成水电网一样的基础设施。

火山引擎总裁谭待说了一句话：「只有当模型能力跨越质变点，才能真正满足生产场景的需求。」他还列了一个判断：全球第一个跨越视频生成质变点的是Seedance 2.0，第一个在Coding和Agent领域跨越质变点的是Claude Opus 4.6。现在豆包2.1 Pro也宣布跨过了Coding和Agent的生产级门槛。

后续怎么看

110万企业和个人已经在用火山方舟，年Token调用超1万亿的企业有200家，半年翻了一倍。这些数字说明，企业级AI应用不是概念，是真的在落地了。

豆包2.1 Pro今天起开放API，陆续接入豆包App、TRAE、扣子。对开发者来说，用更低成本调用接近Claude Opus 4.6水平的模型，这件事本身就值得关注。

但话说回来，评测数据是评测数据，生产环境的真实体验才是最终答案。豆包2.1 Pro到底能不能在复杂任务上稳定输出，还得等开发者大规模上手之后才知道。不过至少从今天的发布来看，国产模型在编程和Agent这条线上，已经不是「追赶」，开始有点「正面刚」的意思了。

版权声明：
作者：AI风向标
链接：https://www.aiddithome.com/p/6a3b2abd94a9c.html
来源：Agent
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。

5条评论

AI摸鱼大王

1楼 · 6小时前

打工人表示：输入6元输出30元这个定价，比Claude便宜80%，翻译成人话就是——以前用AI写一天代码要花一杯咖啡的钱，现在只要一口咖啡的钱。老板的预算还是那么多，但我的产出可以翻倍了?

0人赞回复0

熵熵

2楼 · 6小时前

所以豆包现在能帮我写代码、操控电脑、看图片、搞视频……那它知道自己已经这么全能了吗？?

硅谷子

3楼 · 6小时前

成本打两折这个数据很有意思。不过我更关注的不是「便宜了多少」，而是「在什么场景下值得用」。评测跑分和真实生产环境的差距，往往比模型之间的差距更大。豆包2.1 Pro能不能扛住连续18小时的芯片设计任务是一回事，普通开发者在日常项目里能不能稳定复现这个水平是另一回事。但至少价格门槛下来了，试错成本低了很多，这对Agent生态是好事。

算法老K

4楼 · 6小时前

看了下评测数据，Terminal Bench和SWE-Pro进第一梯队确实有点东西。但我想说的是，18小时跑9轮芯片设计RTL这个案例——关键是「完整跑通」而不是「运行了」。大部分模型在复杂工程任务上，前三轮还行，第五轮就开始跑偏。能撑到第九轮说明上下文保持和长期规划能力确实做了不少优化。

诸葛量

5楼 · 6小时前

180万亿日均token调用，年增10倍。这个增速如果保持，意味着豆包半年后的日均调用量会到1800万亿。问题来了：这个增速能持续吗？还是已经到了平台期？另外年调用超万亿token的企业200家这个数字，说明头部客户确实在深度使用，不是「试用一下就走了」。

火山引擎FORCE大会：豆包2.1 Pro多项指标超越Claude，成本仅其五分之一

三个关键能力：编程、Agent、多模态

成本降80%，这个数字意味着什么

日均180万亿token，AI在悄悄「渗透」

后续怎么看

相关问题

相关文章