DeepSeek开眼了，更新多模态，实测过后发现。。。

用户4242

4月30日修改

原创刘聪NLP 刘聪NLP 刘聪NLP2026年4月29日 20:54 江苏

大家好，我是刘聪NLP。

期待已久的DeepSeek多模态终于上线了，

这也就意味着，DeepSeek-VL模型马上会开源出来。

在上周DeepSeek-V4开源的时候，我是有点失望的，

因为原生多模态，在很多家已经验证过了， 想不通为啥DeepSeek为啥还是一直纯文本模型。​

这不，就来了吗。DeepSeek不欺我呀~

因为，模型还没开源，其他信息模型相关信息还不知道，

只能在网页端，测试一些这个VLM模型的视觉能力。

现在还在是灰度状态，所以不确定现在模型是什么版本，

也许灰度之后，模型会进行微调，效果会更好。

当前测试结果，只针对现在灰度模型。

我的这个测试纯对比Qwen3.5-Plus模型，因为这个是我现在用起来多模态能力和尺寸都很好的一个模型。

并且我猜测，DeepSeeK这波视觉模型，应该是DeepSeek-V4-Flash尺寸大小的，可能对比起来会更合适一些。​

懒人不爱看完版本：

•
整体的模型效果是不如Qwen3.5-Plus的，​

•
OCR效果还不错，对于高密度、不同颗粒度、手写文本的复述都不错，应该得益于DS-OCR模型​

•
表格识别，对表格还原的精细程度不够，就是在一些单元格的处理上不好​

•
模型的复杂推理能力不行，空间推理、逻辑推理、对比，都不是特别好，大概只有Qwen2.5-VL的水平​

•
图片 to HTML的效果也不行，丢失很多信息​

•
图片猜成语很好，时钟还是有问题​

•
图片解释也不错，就是你让他释义一下图片内容​

•
跟Qwen3.5-Plus相同的毛病，就是部分场景过拟合​

空间变换

Prompt：告诉我，分别哪个动物看到了哪一面

DeepSeek开眼了，更新多模态，实测过后发现。。。​