今天下午,火山引擎FORCE原动力大会又炸了一波。
先说核心:豆包2.1 Pro正式发布,在编程、Agent、视觉语言三个方向上全面升级,多项评测数据正面刚Claude Opus 4.6。关键是价格——每百万token输入6元、输出30元,综合成本只有Claude的五分之一。
三个关键能力:编程、Agent、多模态
豆包2.1 Pro这次主攻三个方向。
编程方面,Terminal Bench 2.1、SWE-Pro、SciCode等评测都进了第一梯队。官方给了一个真实案例:让模型做芯片设计RTL,连续跑了18个小时,9轮迭代,完整跑通了仿真、测试、综合检查。这个已经不是「帮你写个函数」的水平了,是在干工程师的活。
Agent能力方面,他们用豆包2.1 Pro搭了一个3D虚拟城市场景,500多个智能体同步协作,上千轮工具调用,自动生成了上百栋建筑。OSWorld、MobileWorld、MMMU-Pro等评测也都全球前列。
视觉语言模型的能力也没落下,可以直接理解图像、图表,在多模态评测里表现不俗。
成本降80%,这个数字意味着什么
定价表:输入6元/百万token,输出30元/百万token,缓存命中只要1.2元。对比Claude Opus 4.6,综合成本低了近80%。
说人话就是:以前用顶级模型做Agent应用,成本是个大问题。开发一个每天调用几百万token的Agent系统,一个月可能要烧掉几万块。现在同样的能力,成本打了两折。这个降幅不是「便宜了一点」,是直接改变了Agent应用能不能跑通的商业逻辑。
火山引擎还发了Doubao-Seed-Evolving版本,针对编程和Agent场景,每月迭代2到4次。这个节奏说明字节在模型迭代上完全进入了「小步快跑」的模式,不再是半年憋一个大招。
日均180万亿token,AI在悄悄「渗透」
大会上还有一个数据值得关注:截至6月,豆包大模型日均Token调用量突破180万亿,过去一年增长超10倍。
这个数字可能比你想象的更有意思。180万亿token是什么概念?意味着每天有海量的AI任务在后台静默运行——客服、代码生成、文档处理、内容创作。AI不再只是「偶尔用一下的聊天工具」,正在变成水电网一样的基础设施。
火山引擎总裁谭待说了一句话:「只有当模型能力跨越质变点,才能真正满足生产场景的需求。」他还列了一个判断:全球第一个跨越视频生成质变点的是Seedance 2.0,第一个在Coding和Agent领域跨越质变点的是Claude Opus 4.6。现在豆包2.1 Pro也宣布跨过了Coding和Agent的生产级门槛。
后续怎么看
110万企业和个人已经在用火山方舟,年Token调用超1万亿的企业有200家,半年翻了一倍。这些数字说明,企业级AI应用不是概念,是真的在落地了。
豆包2.1 Pro今天起开放API,陆续接入豆包App、TRAE、扣子。对开发者来说,用更低成本调用接近Claude Opus 4.6水平的模型,这件事本身就值得关注。
但话说回来,评测数据是评测数据,生产环境的真实体验才是最终答案。豆包2.1 Pro到底能不能在复杂任务上稳定输出,还得等开发者大规模上手之后才知道。不过至少从今天的发布来看,国产模型在编程和Agent这条线上,已经不是「追赶」,开始有点「正面刚」的意思了。

打工人表示:输入6元输出30元这个定价,比Claude便宜80%,翻译成人话就是——以前用AI写一天代码要花一杯咖啡的钱,现在只要一口咖啡的钱。老板的预算还是那么多,但我的产出可以翻倍了?
所以豆包现在能帮我写代码、操控电脑、看图片、搞视频……那它知道自己已经这么全能了吗??
成本打两折这个数据很有意思。不过我更关注的不是「便宜了多少」,而是「在什么场景下值得用」。评测跑分和真实生产环境的差距,往往比模型之间的差距更大。豆包2.1 Pro能不能扛住连续18小时的芯片设计任务是一回事,普通开发者在日常项目里能不能稳定复现这个水平是另一回事。但至少价格门槛下来了,试错成本低了很多,这对Agent生态是好事。
看了下评测数据,Terminal Bench和SWE-Pro进第一梯队确实有点东西。但我想说的是,18小时跑9轮芯片设计RTL这个案例——关键是「完整跑通」而不是「运行了」。大部分模型在复杂工程任务上,前三轮还行,第五轮就开始跑偏。能撑到第九轮说明上下文保持和长期规划能力确实做了不少优化。
180万亿日均token调用,年增10倍。这个增速如果保持,意味着豆包半年后的日均调用量会到1800万亿。问题来了:这个增速能持续吗?还是已经到了平台期?另外年调用超万亿token的企业200家这个数字,说明头部客户确实在深度使用,不是「试用一下就走了」。