🚀 AltCLIP-m9
このモデルは、英語(En)、中国語(Zh)、スペイン語(Es)、フランス語(Fr)、ロシア語(Ru)、日本語(Ja)、韓国語(Ko)、アラビア語(Ar)、イタリア語(It)をサポートしています。
名称 Name |
タスク Task |
言語 Language(s) |
モデル Model |
Github |
AltCLIP - m9 |
テキスト - 画像 |
多言語 |
CLIP |
[FlagAI](https://github.com/FlagAI - Open/FlagAI) |
✨ 主な機能
🔍 概要
私たちは、より優れた9言語CLIPモデルを訓練するための簡単で効率的な方法を提案しました。このモデルはAltCLIP - m9と名付けられました。AltCLIPの訓練データは、WuDaoデータセット と LIAON から取得されています。
AltCLIP - m9モデルは、本プロジェクト内のAltDiffusion - m9モデルをサポートすることができます。AltDiffusion - m9モデルの詳細については、[このチュートリアル](https://github.com/FlagAI - Open/FlagAI/tree/master/examples/AltDiffusion/README.md) を参照してください。
モデルコードは [FlagAI](https://github.com/FlagAI - Open/FlagAI/tree/master/examples/AltCLIP) でオープンソース化されており、重みは私たちが構築した [modelhub](https://model.baai.ac.cn/model - detail/100077) にあります。また、微調整、推論、検証のスクリプトも提供しているので、ぜひ試してみてください。
📚 引用
AltCLIPに関する詳細は、以下の報告書で確認できます。もしあなたの研究に役立つ場合は、ぜひ引用してください。
@article{https://doi.org/10.48550/arxiv.2211.06679,
doi = {10.48550/ARXIV.2211.06679},
url = {https://arxiv.org/abs/2211.06679},
author = {Chen, Zhongzhi and Liu, Guang and Zhang, Bo - Wen and Ye, Fulong and Yang, Qinghong and Wu, Ledell},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences},
title = {AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non - exclusive license}
}
🔧 訓練
訓練は2つのフェーズから構成されています。
平行知識蒸留フェーズでは、平行コーパステキストを使用して蒸留を行います(平行コーパスは画像 - テキストペアよりも取得が容易で、数量も多いです)。多言語対比学習フェーズでは、少量の中 - 英画像 - テキストペア(各言語で約600万)を使用して、テキストエンコーダを画像エンコーダに適合させます。
📈 下流性能

🎨 可視化効果
AltCLIPに基づいて、AltDiffusionモデルも開発しています。可視化効果は以下の通りです。

💻 使用例
基本的な使用法
from PIL import Image
import requests
from modeling_altclip import AltCLIP
from processing_altclip import AltCLIPProcessor
model = AltCLIP.from_pretrained("BAAI/AltCLIP-m9")
processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP-m9")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
モデル推論
[FlagAI AltCLIP](https://github.com/FlagAI - Open/FlagAI/tree/master/examples/AltCLIP) からコードをダウンロードしてください。
📄 ライセンス
このモデルはCreativeML OpenRAIL - Mライセンスの下で公開されています。詳細なライセンス内容は、[こちら](https://huggingface.co/spaces/CompVis/stable - diffusion - license) をご覧ください。
⚠️ 重要提示
このモデルを取得する前にもう1つの手順があります。このモデルはオープンアクセスで、すべてのユーザーが利用できますが、CreativeML OpenRAIL - Mライセンスによって権利と使用方法がさらに規定されています。
CreativeML OpenRAILライセンスには以下の点が規定されています。
- このモデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有してはいけません。
- BAAIは、あなたが生成した出力に対して一切の権利を主張せず、あなたはそれらを自由に使用できますが、ライセンスに定められた規定に違反してはいけません。
- あなたは重みを再配布し、モデルを商用またはサービスとして使用することができます。その場合、ライセンスに記載されている同じ使用制限を含め、CreativeML OpenRAIL - Mのコピーをすべてのユーザーに共有する必要があります(ライセンス全体を注意深く読んでください)。
以下の「アクセスリポジトリ」をクリックすることで、あなたの連絡先情報(メールアドレスとユーザー名)がモデル作成者と共有されることにも同意することになります。
「ライセンスを読み、その条項に同意します」にチェックを入れてください。