分享
DeepSeek开眼了,更新多模态,实测过后发现。。。
输入“/”快速插入内容
DeepSeek开眼了,更新多模态,实测过后发现。。。
用户4242
用户4242
4月30日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/RlBNab2W...
原创 刘聪NLP 刘聪NLP 刘聪NLP
2026年4月29日 20:54 江苏
大家好,我是刘聪NLP。
期待已久的DeepSeek多模态终于上线了,
这也就意味着,DeepSeek-VL模型马上会开源出来。
在上周DeepSeek-V4开源的时候,我是有点失望的,
因为原生多模态,在很多家已经验证过了,
想不通为啥DeepSeek为啥还是一直纯文本模型。
这不,就来了吗。DeepSeek不欺我呀~
因为,模型还没开源,其他信息模型相关信息还不知道,
只能在网页端,测试一些这个VLM模型的视觉能力。
现在还在是灰度状态,所以不确定现在模型是什么版本,
也许灰度之后,模型会进行微调,效果会更好。
当前测试结果,只针对现在灰度模型。
我的这个
测试纯对比Qwen3.5-Plus模型
,因为这个是我现在用起来多模态能力和尺寸都很好的一个模型。
并且我猜测,DeepSeeK这波视觉模型,应该是DeepSeek-V4-Flash尺寸大小的,可能对比起来会更合适一些。
懒人不爱看完版本:
•
整体的模型效果是不如Qwen3.5-Plus的,
•
OCR效果还不错,对于高密度、不同颗粒度、手写文本的复述都不错,应该得益于DS-OCR模型
•
表格识别,对表格还原的精细程度不够,就是在一些单元格的处理上不好
•
模型的复杂推理能力不行,空间推理、逻辑推理、对比,都不是特别好,大概只有Qwen2.5-VL的水平
•
图片 to HTML的效果也不行,丢失很多信息
•
图片猜成语很好,时钟还是有问题
•
图片解释也不错,就是你让他释义一下图片内容
•
跟Qwen3.5-Plus相同的毛病,就是部分场景过拟合
空间变换
Prompt:告诉我,分别哪个动物看到了哪一面