分享
DALLE-3 的紧箍咒
输入“/”快速插入内容
⚠️
DALLE-3 的紧箍咒
飞书用户2347
飞书用户6100
2024年5月15日修改
看看
OpenAI
给 DALLE3 套上了啥紧箍咒,DALLE-3 system card 论文阅读
作者: 云中江树
微信: zephyr_ai
1.
相比上一代 DALLE-2,除了模型设计改进外,
训练数据
也大大优化,同时安全工作下足了功夫
a.
ChatGPT
会对用户敏感内容进行审查过滤
b.
输入提示词过滤器会对用户和
ChatGPT
对话进行审查过滤,拒绝不合规内容。如下图:模型拒绝回答不当内容:
c.
黑名单,黑名单内的内容不会生成
d.
ChatGPT
改写优化提示词,用户输入提示词后,ChatGPT 会自动优化增加更多细节信息等改写提示词,DALLE-3最终用优化后的提示词生成图像。
e.
图像过滤器。生成的图像内容会被审查过滤,不当内容不会展示给用户。
2.
开放公众使用前和 GPT4V 一样进行了红队测试和小规模用户测试(discord用户福利),早期模型存在图像生成偏好——倾向于生成年轻白人女孩图片,经过
OpenAI
调教后生成图片更加多样化。同时,早期测试中发现的一些越狱漏洞(如通过医学图像展示涩情图片) 现在已经被堵上。
3.
模型造假能力。能够生成具有真实感的官方文档、虚构事件,但能力有限,并不比现有造假技术造假方便。