为什么图片模型比语言模型小