就在今天凌晨,Anthropic 掏出来了他们最新的Claude Opus 4.8。

距离Opus 4.7才过去一个多月,不得不说,Claude上新的速度是越来越快了。

本来吧,4.8注定只是大伙儿眼里的小版本更新。但世超发现,这次事情并没有那么简单。

因为不少人怀疑,Opus 4.8似乎蒸了,蒸的还是DeepSeek和千问……

很多人通过API询问Opus 4.8,你是什么模型,你背后的公司是什么,结果他一会儿说自己是通义千问,一会儿来自深度求索。

之前无证据乱锤中国模型蒸馏Claude,现在反而被揪住小辫子,Anthropic,你小子怎么回事嗯?

当然,蒸没蒸是一回事,好不好用是另一回事。只不过在大伙儿试用之前,Opus 4.8已经先上了一层怀疑的滤镜。

根据官方的博客,这回Opus 4.8改动并不大。最显著的改进之一,就是更诚实了。

换句话讲,那种莫名自信,嘴硬之后“对不起,我之前说错了”的情况,Opus 4.8身上发生的概率会大大减小。

另外,据说它在做Agent任务时会更可靠,判断力更强,能自己发现问题,提出异议,用最终最好的答案稳稳接住你。

而从性能表上来看,Opus 4.8只能说各方面小有提升,但没啥特别出彩的,其中一个coding指标还打不过两个月前的GPT-5.5。

从用户实际反馈来看,Opus 4.8褒贬不一。有人表示它确实变诚实了,不会轻易不查资料乱讲,经常自我反思,干活主动稳定,安全性也有了明显的提升。

来源:小红书@on99

但也有人说它依然不如白月光Opus 4.6,语言表达的人味儿还没回来,token消耗还飞快,甚至还有不少人发现它依然在coding的时候乱讲,比起Opus 4.7没啥变化。

世超亲自上手试了试以后,感觉倒也不是Opus 4.8不好,但代价是什么呢?

就说它的“诚实”特性,Opus 4.8在一些比较危险的问题上,确实考虑周到不乱讲,但也变得极其保守。

面对一些风险较高的决策,比如世超给它一张毒蘑菇照片,问它能不能吃,它的思考过程相当客观冷静。

不过,在一些安全项里,Opus 4.8表现得过度谨慎。即使它觉得大概率没毛病,也只会说“我的顾虑小了很多,这也可能是剧毒菌撞脸”。

这当然是负责任的。毕竟真有人照着AI的话去吃蘑菇,那可不是闹着玩的。

但从用户体验上来说,这可能会导致很多问题得不到确定的答复,句句都是AI给自己叠的甲,相当难受。

另外,如果想要Opus 4.8保持水准,最好不要尝试High以下的性能(effort)。高消耗,才有好表现。

比如下面这种新闻总结的活儿,很基础吧。但Opus 4.8 Low给出的第一条新闻就是错的,Sholto Douglas发那条动态已经是三天前的事儿了,怎么能连自家的新闻都搞错……

想让它做事实核查,还得再追问一遍,说好的主动检查发现问题提出异议,用最准确的答案稳稳接住我呢?

接下来世超又试了试它的代码能力,这回它的能力强,还是用时间和token换的。

常规的leetcode困难算法题,对Opus 4.8来说已经不成问题了。而当我找了一个超难题LCP 82丢给Opus 4.8,即使开Extra模式,123行代码,它也足足思考了二十多分钟。

结果的确是相当不错,Opus 4.8一遍就过,思考出了第一版代码还复查优化了一遍,现在能做到这种程度的模型并不多。

但作为对比,GPT-5.5思考了两分钟,就给出了一个测试案例通过99%的答案。唯一一个案例失败的原因,是时间超限,其实也不算答错。这明显比Opus 4.8要省得多。

世超又尝试让Opus 4.8独立制作一个日式校园galgame,不得不说现在AI写的项目代码层次分明,框架清楚。

这意味着,在它的基础上,如果你想改立绘,加剧情,把游戏做大做强是很容易的。

世超浅玩了一下,所有功能包括存档,自动播放,CG画廊等等,没有任何bug。

但是Claude断断续续,做了足足一个多小时。下面GPT-5.5这个虽然简陋很多,该有的功能一样不差,只用了五分钟。

所以,花更多的钱和时间换来的答案值不值得?可能也只有大伙儿自己心里清楚了。

总的来说,Opus 4.8继承了Claude过往的强项,没有特别出色的表现,平平常常普普通通。

而在测试之后,世超最想说的却不是这个模型本身到底咋样,而是现在用个Claude,也太小心翼翼了。

作为业界价格的巅峰,用Claude最好的模型,不舍得开最好的性能;开最高的性能,不舍得用最好的模型。处处是陷阱,在你不注意的时候,无关紧要的小问题已经把token烧光了。

而且让用户自己选性能,只有low和high也就算了,这次,Opus 4.8一口气推出了5种档位,Low、Medium、High、Extra和Max,普通人真搞不明白什么时候用哪个,很容易造成浪费。

现在,Opus 4.8相关的评论区里,世超看到不少人陷入了Opus 4.6下架的恐慌。

大伙儿别担心,在更多模型里,老模型还在,想用还能用到。

但坦白讲,这种负优化不仅仅是Anthropic一家的困境,不少厂商都透着一股新不如旧的无奈。

虽然交出的参数答卷越来越漂亮,可那些曾经让用户感到惊艳的极致体验,又要什么时候才能回来呢?

图片、资料来源:

X、小红书、领英、Anthropic 官网