分享
延伸阅读
输入“/”快速插入内容
🌈
延伸阅读
用户8537
用户8537
2024年7月17日修改
模型介绍
可图大模型是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。Kolors 在数十亿图文对下进行训练,在视觉质量、复杂语义理解、文字生成(中英文字符)等方面,相比于开源/闭源模型,都展示出了巨大的优势。同时,Kolors 支持中英双语,在中文特色内容理解方面更具竞争力。更多的实验结果和细节请查看我们的
技术报告
。
📊 评测表现
为了全面比较 Kolors 与其他模型的生成能力,我们构建了包含人工评估、机器评估的全面评测内容。 在相关基准评测中,Kolors 具有非常有竞争力的表现,达到业界领先水平。我们构建了一个包含14种垂类,12个挑战项,总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上,我们收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。
人工评测
我们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,为生成图像打分,衡量维度为:画面质量、图文相关性、整体满意度三个方面。 Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。
所有模型结果取自 2024.04 的产品版本
机器评测
我们采用
MPS
(Multi-dimensional Human preference Score) 来评估上述模型。 我们以 KolorsPrompts 作为基础评估数据集,计算多个模型的 MPS 指标。Kolors 实现了最高的MPS 指标,这与人工评估的指标一致。
更多的实验结果和细节请查看我们的技术报告。点击
技术报告
。
🛠️ 快速使用
要求
•
python 3.8及以上版本
•
pytorch 1.13.1及以上版本
•
transformers 4.26.1及以上版本
•
建议使用CUDA 11.7及以上
1、仓库克隆及依赖安装
代码块
Python
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
2、模型权重下载(
链接
):
代码块
Python
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
或者
代码块
Python
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
3、模型推理:
代码块
Python
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"# The image will be saved to "scripts/outputs/sample_text.jpg"
4、 Web demo:
代码块
Python
python3 scripts/sampleui.py
在 Diffusers 中使用
确保您安装了最新版本的
diffusers
(0.30.0.dev0):
代码块
Plain Text
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install