🚀 AltCLIP-m9
AltCLIP-m9是一个支持英语(En)、中文(Zh)、西班牙语(Es)、法语(Fr)、俄语(Ru)、日语(Ja)、韩语(Ko)、阿拉伯语(Ar)和意大利语(It)的多语言模型,为文本图像任务提供了强大支持。
名称 Name |
任务 Task |
语言 Language(s) |
模型 Model |
Github |
AltCLIP-m9 |
Text-Image |
多语言 Multilingual |
CLIP |
FlagAI |
✨ 主要特性
- 支持九种语言,包括英语、中文、西班牙语、法语、俄语、日语、韩语、阿拉伯语和意大利语。
- 采用简单高效的方法训练,在多语言文本图像任务中表现出色。
- 为AltDiffusion-m9模型提供支持。
📦 安装指南
文档未提供具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
from PIL import Image
import requests
from modeling_altclip import AltCLIP
from processing_altclip import AltCLIPProcessor
model = AltCLIP.from_pretrained("BAAI/AltCLIP-m9")
processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP-m9")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
📚 详细文档
简介
我们提出了一个简单高效的方法去训练更加优秀的九语CLIP模型,命名为AltCLIP-m9。AltCLIP训练数据来自 WuDao数据集 和 LIAON 。
AltCLIP-m9模型可以为本项目中的AltDiffusion-m9模型提供支持,关于AltDiffusion-m9模型的具体信息可查看此教程 。
模型代码已经在 FlagAI 上开源,权重位于我们搭建的 modelhub 上。我们还提供了微调,推理,验证的脚本,欢迎试用。
引用
关于AltCLIP,我们已经推出了相关报告,有更多细节可以查阅,如对您的工作有帮助,欢迎引用。
@article{https://doi.org/10.48550/arxiv.2211.06679,
doi = {10.48550/ARXIV.2211.06679},
url = {https://arxiv.org/abs/2211.06679},
author = {Chen, Zhongzhi and Liu, Guang and Zhang, Bo-Wen and Ye, Fulong and Yang, Qinghong and Wu, Ledell},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences},
title = {AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
训练
训练共有两个阶段。
在平行知识蒸馏阶段,我们只是使用平行语料文本来进行蒸馏(平行语料相对于图文对更容易获取且数量更大)。在多语对比学习阶段,我们使用少量的中 - 英 图像 - 文本对(每种语言6百万)来训练我们的文本编码器以更好地适应图像编码器。
下游效果

可视化效果
基于AltCLIP,我们还开发了AltDiffusion模型,可视化效果如下。

🔧 技术细节
文档未提供具体技术细节,故跳过此章节。
📄 许可证
本模型采用CreativeML OpenRAIL-M许可证,该许可证规定:
- 您不能使用该模型故意生成或分享非法或有害的输出或内容。
- 北京智源人工智能研究院(BAAI)对您生成的输出不主张任何权利,您可以自由使用它们,并对其使用负责,且使用不得违反许可证中的规定。
- 您可以重新分发模型权重,并将模型用于商业用途和/或作为服务使用。如果您这样做,请务必包含与许可证中相同的使用限制,并向所有用户提供CreativeML OpenRAIL-M许可证的副本。
请在此处阅读完整许可证:https://huggingface.co/spaces/CompVis/stable-diffusion-license
通过点击下面的“访问仓库”,您也同意您的联系信息(电子邮件地址和用户名)可以与模型作者共享。