5月28日,Anthropic正式发布Claude Opus 4.8,这是距 Opus 4.7 仅41天后的又一次重大迭代。这一次,Anthropic把竞争焦点从"谁更聪明"转向了"谁更靠谱"。
一、最大的产品创新:Dynamic Workflows
Opus 4.8最亮眼的特性是Dynamic Workflows(动态工作流)。简单说,就是AI不再只是回答问题,而是能自主调度数百个子智能体并行工作,在一次会话中完成跨数十万行代码的复杂迁移任务。
这意味着什么?过去你让AI重构一个大型项目,它可能会"失忆"或者逻辑混乱。现在它学会了"拆任务—并行执行—汇总结果"的工作流模式,真正从工具变成了工程协作系统。
二、诚实度大幅提升:"不确定就说不知道"
Anthropic宣称,Opus 4.8放任代码缺陷不加说明的概率降至前代的1/4,更主动标记不确定性。这听起来很简单,但实际意义重大——在专业场景中,一个"假装自己很懂"的AI比一个"坦诚自己不懂"的AI危险得多。
Claude Opus 4.8在SWE-Bench Pro达到69.2%,超越GPT-5.5与Gemini 3.1 Pro。但在Terminal-Bench 2.1上,GPT-5.5仍以78.2%领先。
三、速度提升2.5倍,价格降至1/3
Fast mode速度提升2.5倍,成本降至1/3,保持$5/$25每百万token的定价不变。同价升级,这对开发者来说是真金白银的利好。
四、点评
Anthropic正在把Claude从"聪明的聊天工具"进化为"靠谱的工作搭档"。当其他厂商还在比"谁答得更准"的时候,Anthropic已经在问"谁能更好地完成任务"了。这个转变,可能比任何技术参数都重要。

诚实度提升这个点很关键,之前用Claude有时候感觉它在'装懂',现在好了
感觉Anthropic的策略很聪明,从'更聪明'转向'更靠谱'
速度提升2.5倍价格还降了,这波升级对开发者太友好
Dynamic Workflows这个功能太猛了,调度数百个子Agent并行工作,感觉离真正的AGI又近了一步
Claude在编程任务上的表现越来越强了,SWE-Bench 69.2%已经超过GPT-5.5