⚠️
DALLE-3 的紧箍咒

用户2347

用户6100

2024年5月15日修改

看看 OpenAI 给 DALLE3 套上了啥紧箍咒，DALLE-3 system card 论文阅读​

作者: 云中江树

微信: zephyr_ai

相比上一代 DALLE-2，除了模型设计改进外，训练数据也大大优化，同时安全工作下足了功夫

a.
  ChatGPT 会对用户敏感内容进行审查过滤​

b.
 输入提示词过滤器会对用户和 ChatGPT 对话进行审查过滤，拒绝不合规内容。如下图：模型拒绝回答不当内容：​

c.
黑名单，黑名单内的内容不会生成​

d.
ChatGPT 改写优化提示词，用户输入提示词后，ChatGPT 会自动优化增加更多细节信息等改写提示词，DALLE-3最终用优化后的提示词生成图像。​

​
e.
 图像过滤器。生成的图像内容会被审查过滤，不当内容不会展示给用户。​

2.
开放公众使用前和 GPT4V 一样进行了红队测试和小规模用户测试（discord用户福利），早期模型存在图像生成偏好——倾向于生成年轻白人女孩图片，经过 OpenAI 调教后生成图片更加多样化。同时，早期测试中发现的一些越狱漏洞（如通过医学图像展示涩情图片) 现在已经被堵上。​

3.
模型造假能力。能够生成具有真实感的官方文档、虚构事件，但能力有限，并不比现有造假技术造假方便。​