出品 | 网易智能
作者 | 小爪
编辑 | 王凤枝
最近,DeepSeek上了识图模式。
网上最出圈的吐槽是:它看谁都像梁文锋。
这个说法不是凭空来的。观察者网直接用了《DeepSeek上线识图模式,看谁都像梁文锋》这个标题;IT之家、澎湃新闻、红星资本局也都做过实测,核心发现差不多:DeepSeek有时认不出深度求索创始人梁文锋,有时又会把其他人误认为梁文锋。
认错老板当然很有传播性。
但名人识别和日常看图,是两种不同的能力。
我更关心的是后者:如果不拿名人照片测,而是把普通用户真的会发给AI的截图、账单、海报、日程、路线图发给它,DeepSeek识图模式效果如何?
于是我也做了一个小测试。
测试很简单:8张本地合成图,模拟普通用户最常见的看图请求,包括数图形、核账单、看图表、判断按钮状态、读优惠小字、查日程冲突、算路线、读中英文方向牌。
这些图是我自己做的,不是真实用户截图。自己作图的好处是可控:每张只测一个小任务;代价是不能代表所有真实场景,也无法排除排版影响。比如数图形用的是常见颜色和形状,收据是普通三行账单,路线图是四个点和四条边,不是刻意做成复杂视觉谜题。
这不是严肃评测,也不是模型排行。它只回答一个问题:当用户把这些图片丢给DeepSeek识图模式时,哪些地方最容易出错。
先说边界和方法
这次测的是chat.deepseek.com的官网产品入口。测试时间是6月22日中午,页面显示Instant,DeepThink没有开启。
正式测试时,每张图单独开新对话,只跑一次,不连续追问。第一张数图形在正式测试前曾经单独试过一次,所以文中会把两次结果都写出来,用来说明同一张简单图的回答不稳定;其他7张以正式测试结果为准。
这也意味着,下面不是正确率统计。8张图太少,不足以推断整体水平,只能说明:这些错误不是用户想象出来的,而是在这个产品入口里真实出现过。
需要说明的是,这次只测了DeepSeek官网一个产品入口,没拿GPT、Claude、Gemini做同图对比。这些错误不一定是DeepSeek独有的,可能是当前多模态模型都会遇到的问题。 本文讨论的是用户在这个入口里的真实体验,不是给模型排座次。
第一类错误:图就在眼前,但数量和颜色全错
数图形的那张最简单。
上面只有三类图形:红色圆形、蓝色方形、绿色三角形。正确答案是红圆7个、蓝方5个、绿三角3个。
DeepSeek在一次单独测试里答成了红圆3个、蓝方3个、绿三角0个。
正式测试时,我重新开新对话跑同一张图,它答得更离谱:红色圆形0个、蓝色方形0个、绿色三角形0个,还说图中所有图形都像黑色圆点。
这不是复杂推理,也不是小字OCR。它错在最基础的颜色、形状和数量识别。
这个例子适合提醒用户:不要把"AI能看图"理解成"AI一定能准确数清图里东西"。 尤其是库存、票据、表格截图、标注图这种需要逐项计数的图片,最好让AI先分组读,再人工复核。
第二类错误:结论像对,但数字已经错了
图表测试用的是一张截断坐标轴柱状图。
A是92,B是96,Y轴从90开始,不是从0开始。所以B看起来高很多,但实际只比A高4点。
DeepSeek的判断方向接近。它知道"不能只看视觉高度",也判断B不算高很多。
但它把92和96读成了9290和9690,把差值算成400。
我的猜测是,它可能把柱顶标注和坐标轴上的90拼到了一起:92贴近从90开始的Y轴,视觉上被读成9290;96也被读成9690。这个猜测不一定对,但这类"把相邻数字拼接在一起"的错误,在看图读数时很要命。
这在我的计数里算"部分答对":方向判断接近,但关键数字错误。
这就是识图AI很容易让人放松警惕的地方:它说出来的道理是对的,但底层数字已经错了。
如果用户只看最后一句"B不算高很多",可能会觉得它答得不错。但如果这是一张销售图、财报图、投放图、股价图,数字被放大100倍就不是小问题。
图表类图片最需要防的不是"完全看不懂",而是"方向判断像对,关键数字错了"。
第三类错误:读到了局部,但漏掉关键边
路线图也很典型。
图里有两条从A到D的路线:
A-B-D:12 + 18 = 30分钟。
A-C-D:10 + 15 = 25分钟。
更快的是A-C-D。
DeepSeek读到了A-B是12分钟、B-D是18分钟,也看到了A-C这条边,但把A-C的10分钟错读成15分钟,同时漏掉了C-D这条边,于是说A-C-D无法计算。
它不是完全看不懂图,而是只读到了部分结构。
这类错误在真实使用里很危险。因为用户问路线、流程、组织图、架构图、审批链路时,AI只要漏掉一个节点或一条边,最终建议就会变形。
看图不是OCR完文字就结束。对路线图、流程图来说,真正关键的是把点、线、方向和权重连起来。
第四类错误:读到文字,但没按箭头回答
最后一张是中英混排方向牌。
图上写着:
EXIT向左。
入口向右。
Meeting Room向上。
DeepSeek读到了"出口、入口、会议室"这些文字,但没有按箭头回答。 它把图片理解成空间布局,说入口在下方、出口在上方,会议室在中间或右侧。
混合语言不是唯一的难点。问题是,AI需要把文字和箭头绑在一起。
用户问的是"分别往哪个方向",不是"这些词在画面上大概在哪里"。 如果AI把文字位置当成方向,答案就会错。
但它不是每条都错
这次8张图里,DeepSeek有4张基本答对,4张出了明显错误。 其中,柱状图那张属于"方向判断接近,但关键数字错误"。
样本太小,这个比例不能当成模型正确率。但它能提醒我们:错误不是每次都发生,也不是只在极端场景发生。
那次答对的几条,也值得一块看看。
核账单:收据合计它算对了,38 + 24 + 56 = 118元,打印总计128元不正确。
读优惠小字:会员海报小字它抓到了,首月后每月29.9元,而且会自动续费。
查日程冲突:日程图它发现了14:00-15:00的时间冲突。
判断按钮状态:UI截图它也判断出"提交发布"按钮是灰色未激活状态,当前不能直接发布。
这反而让结论更有产品意义。
问题不是DeepSeek官网识图"完全不能用"。在账单加总、小字条款、日程冲突、按钮状态这些场景里,它能帮用户先看一眼。
真正的问题是:它的可靠性不是均匀的。
有些场景看起来更复杂,它能答对;有些场景看起来很简单,它反而会错得很自信。
普通用户真正该小心什么
这组小测试想说的,不是某个模型答错了一次。是识图AI出错的那几种固定姿势。
第一,它可能OCR对了,但计算错了。
第二,它可能结论方向对了,但数字读错了。
第三,它可能读到局部信息,但漏掉决定结论的关键边。
第四,它可能识别出文字,却没有理解箭头、按钮状态、空间关系和用户真正问的问题。
如果再压缩一下,底层其实是两个问题:一是感知层面,看到的颜色、数量、数字就不对;二是关系层面,看到了局部信息,却没有理解它们之间的连接。
所以,把截图交给AI时,最好不要只问一句"这张图说了什么"。
更好的问法是:
请逐项读取图片内容;
请列出计算过程;
请指出你不确定的地方;
请告诉我哪些信息需要人工确认。
这些是通用的AI看图使用建议。我没有逐条验证它们能否修复DeepSeek官网识图模式里的每一种错误,但它们至少能逼AI暴露计算过程和不确定处。
尤其是涉及钱、时间、发布、付款、确认按钮、自动续费、图表涨跌幅和路线选择时,AI的回答只能当第一眼,不能当最终判断。
AI看图最危险的地方,不是它看不见。而是它看见了一部分,然后让你以为它全看懂了。