说实话，我觉得Claude 4.8有点拉

就在今天凌晨，Anthropic 掏出来了他们最新的Claude Opus 4.8。

距离Opus 4.7才过去一个多月，不得不说，Claude上新的速度是越来越快了。

本来吧，4.8注定只是大伙儿眼里的小版本更新。但世超发现，这次事情并没有那么简单。

因为不少人怀疑，Opus 4.8似乎蒸了，蒸的还是DeepSeek和千问……

很多人通过API询问Opus 4.8，你是什么模型，你背后的公司是什么，结果他一会儿说自己是通义千问，一会儿来自深度求索。

之前无证据乱锤中国模型蒸馏Claude，现在反而被揪住小辫子，Anthropic，你小子怎么回事嗯？

当然，蒸没蒸是一回事，好不好用是另一回事。只不过在大伙儿试用之前，Opus 4.8已经先上了一层怀疑的滤镜。

根据官方的博客，这回Opus 4.8改动并不大。最显著的改进之一，就是更诚实了。

换句话讲，那种莫名自信，嘴硬之后“对不起，我之前说错了”的情况，Opus 4.8身上发生的概率会大大减小。

另外，据说它在做Agent任务时会更可靠，判断力更强，能自己发现问题，提出异议，用最终最好的答案稳稳接住你。

而从性能表上来看，Opus 4.8只能说各方面小有提升，但没啥特别出彩的，其中一个coding指标还打不过两个月前的GPT-5.5。

从用户实际反馈来看，Opus 4.8褒贬不一。有人表示它确实变诚实了，不会轻易不查资料乱讲，经常自我反思，干活主动稳定，安全性也有了明显的提升。

来源：小红书@on99

但也有人说它依然不如白月光Opus 4.6，语言表达的人味儿还没回来，token消耗还飞快，甚至还有不少人发现它依然在coding的时候乱讲，比起Opus 4.7没啥变化。

世超亲自上手试了试以后，感觉倒也不是Opus 4.8不好，但代价是什么呢？

就说它的“诚实”特性，Opus 4.8在一些比较危险的问题上，确实考虑周到不乱讲，但也变得极其保守。

面对一些风险较高的决策，比如世超给它一张毒蘑菇照片，问它能不能吃，它的思考过程相当客观冷静。

不过，在一些安全项里，Opus 4.8表现得过度谨慎。即使它觉得大概率没毛病，也只会说“我的顾虑小了很多，这也可能是剧毒菌撞脸”。

这当然是负责任的。毕竟真有人照着AI的话去吃蘑菇，那可不是闹着玩的。

但从用户体验上来说，这可能会导致很多问题得不到确定的答复，句句都是AI给自己叠的甲，相当难受。

另外，如果想要Opus 4.8保持水准，最好不要尝试High以下的性能（effort)。高消耗，才有好表现。

比如下面这种新闻总结的活儿，很基础吧。但Opus 4.8 Low给出的第一条新闻就是错的，Sholto Douglas发那条动态已经是三天前的事儿了，怎么能连自家的新闻都搞错……

想让它做事实核查，还得再追问一遍，说好的主动检查发现问题提出异议，用最准确的答案稳稳接住我呢？

接下来世超又试了试它的代码能力，这回它的能力强，还是用时间和token换的。

常规的leetcode困难算法题，对Opus 4.8来说已经不成问题了。而当我找了一个超难题LCP 82丢给Opus 4.8，即使开Extra模式，123行代码，它也足足思考了二十多分钟。

结果的确是相当不错，Opus 4.8一遍就过，思考出了第一版代码还复查优化了一遍，现在能做到这种程度的模型并不多。

但作为对比，GPT-5.5思考了两分钟，就给出了一个测试案例通过99%的答案。唯一一个案例失败的原因，是时间超限，其实也不算答错。这明显比Opus 4.8要省得多。

世超又尝试让Opus 4.8独立制作一个日式校园galgame，不得不说现在AI写的项目代码层次分明，框架清楚。

这意味着，在它的基础上，如果你想改立绘，加剧情，把游戏做大做强是很容易的。

世超浅玩了一下，所有功能包括存档，自动播放，CG画廊等等，没有任何bug。

但是Claude断断续续，做了足足一个多小时。下面GPT-5.5这个虽然简陋很多，该有的功能一样不差，只用了五分钟。

所以，花更多的钱和时间换来的答案值不值得？可能也只有大伙儿自己心里清楚了。

总的来说，Opus 4.8继承了Claude过往的强项，没有特别出色的表现，平平常常普普通通。

而在测试之后，世超最想说的却不是这个模型本身到底咋样，而是现在用个Claude，也太小心翼翼了。

作为业界价格的巅峰，用Claude最好的模型，不舍得开最好的性能；开最高的性能，不舍得用最好的模型。处处是陷阱，在你不注意的时候，无关紧要的小问题已经把token烧光了。

而且让用户自己选性能，只有low和high也就算了，这次，Opus 4.8一口气推出了5种档位，Low、Medium、High、Extra和Max，普通人真搞不明白什么时候用哪个，很容易造成浪费。

现在，Opus 4.8相关的评论区里，世超看到不少人陷入了Opus 4.6下架的恐慌。

大伙儿别担心，在更多模型里，老模型还在，想用还能用到。

但坦白讲，这种负优化不仅仅是Anthropic一家的困境，不少厂商都透着一股新不如旧的无奈。

虽然交出的参数答卷越来越漂亮，可那些曾经让用户感到惊艳的极致体验，又要什么时候才能回来呢？

图片、资料来源：

X、小红书、领英、Anthropic 官网