🚀 AltCLIP-m9
AltCLIP-m9是一個支持英語(En)、中文(Zh)、西班牙語(Es)、法語(Fr)、俄語(Ru)、日語(Ja)、韓語(Ko)、阿拉伯語(Ar)和意大利語(It)的多語言模型,為文本圖像任務提供了強大支持。
名稱 Name |
任務 Task |
語言 Language(s) |
模型 Model |
Github |
AltCLIP-m9 |
Text-Image |
多語言 Multilingual |
CLIP |
FlagAI |
✨ 主要特性
- 支持九種語言,包括英語、中文、西班牙語、法語、俄語、日語、韓語、阿拉伯語和意大利語。
- 採用簡單高效的方法訓練,在多語言文本圖像任務中表現出色。
- 為AltDiffusion-m9模型提供支持。
📦 安裝指南
文檔未提供具體安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from PIL import Image
import requests
from modeling_altclip import AltCLIP
from processing_altclip import AltCLIPProcessor
model = AltCLIP.from_pretrained("BAAI/AltCLIP-m9")
processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP-m9")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
📚 詳細文檔
簡介
我們提出了一個簡單高效的方法去訓練更加優秀的九語CLIP模型,命名為AltCLIP-m9。AltCLIP訓練數據來自 WuDao數據集 和 LIAON 。
AltCLIP-m9模型可以為本項目中的AltDiffusion-m9模型提供支持,關於AltDiffusion-m9模型的具體信息可查看此教程 。
模型代碼已經在 FlagAI 上開源,權重位於我們搭建的 modelhub 上。我們還提供了微調,推理,驗證的腳本,歡迎試用。
引用
關於AltCLIP,我們已經推出了相關報告,有更多細節可以查閱,如對您的工作有幫助,歡迎引用。
@article{https://doi.org/10.48550/arxiv.2211.06679,
doi = {10.48550/ARXIV.2211.06679},
url = {https://arxiv.org/abs/2211.06679},
author = {Chen, Zhongzhi and Liu, Guang and Zhang, Bo-Wen and Ye, Fulong and Yang, Qinghong and Wu, Ledell},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences},
title = {AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
訓練
訓練共有兩個階段。
在平行知識蒸餾階段,我們只是使用平行語料文本來進行蒸餾(平行語料相對於圖文對更容易獲取且數量更大)。在多語對比學習階段,我們使用少量的中 - 英 圖像 - 文本對(每種語言6百萬)來訓練我們的文本編碼器以更好地適應圖像編碼器。
下游效果

可視化效果
基於AltCLIP,我們還開發了AltDiffusion模型,可視化效果如下。

🔧 技術細節
文檔未提供具體技術細節,故跳過此章節。
📄 許可證
本模型採用CreativeML OpenRAIL-M許可證,該許可證規定:
- 您不能使用該模型故意生成或分享非法或有害的輸出或內容。
- 北京智源人工智能研究院(BAAI)對您生成的輸出不主張任何權利,您可以自由使用它們,並對其使用負責,且使用不得違反許可證中的規定。
- 您可以重新分發模型權重,並將模型用於商業用途和/或作為服務使用。如果您這樣做,請務必包含與許可證中相同的使用限制,並向所有用戶提供CreativeML OpenRAIL-M許可證的副本。
請在此處閱讀完整許可證:https://huggingface.co/spaces/CompVis/stable-diffusion-license
通過點擊下面的“訪問倉庫”,您也同意您的聯繫信息(電子郵件地址和用戶名)可以與模型作者共享。