为什么图片模型比语言模型小

飞书用户8537

2023年12月10日修改

用户在形成一些使用习惯后，可能会发现，如果引入内嵌的AI技术，他们的体验会变得更加理想。我觉得，这种技术在文字理解方面，可能会比大多数现有技术要好。这是有道理的。比如一个绘图软件或AI，要想绘制出优秀的作品，首先需要对图像有深刻理解。那么，谁拥有最好的语言模型呢？目前看来，是OpenAI和它的GPT-4模型。因为图像生成（无论是text to image还是text to video）的核心质量，实际上是由文本控制的。去掉图片，只用文字表达，其实要求的模型复杂度会小很多，因为人类对图像的容错率相对较高。但如果一句话语法或逻辑错误，我们很容易察觉。我们的大脑在处理视觉信息时可以进行一定程度的“脑补”，但对于语言，这种补偿是有限的。所以，对于我们这些普通人来说，文字的准确性仍然非常重要。​

为什么图片模型比语言模型小​

为什么图片模型比语言模型小