AltCLIP - m9：オープンソースの多言語CLIPモデル - 9言語をサポートし、文章から画像生成創作を支援

ホーム

Altclip M9

BAAIによって開発

AltCLIP-m9は9言語対応の多言語CLIPモデルで、多言語テキストから画像生成モデルをサポートします。

テキスト生成画像

Transformers

複数言語対応オープンソースライセンス:Openrail #多言語画像テキストマッチング #クロスモーダルコントラスト学習 #9言語対応

ダウンロード数 25

リリース時間 : 11/18/2022

モデル概要

AltCLIP-m9は多言語画像テキストマッチングモデルで、英語、中国語、スペイン語、フランス語、ロシア語、日本語、韓国語、アラビア語、イタリア語の9言語に対応しています。AltDiffusion-m9多言語テキストから画像生成モデルをサポートします。

モデル特徴

多言語サポート

英語、中国語、スペイン語などの主要言語を含む9言語の画像テキストマッチングをサポートします。

効率的なトレーニング方法

2段階のトレーニングプロセスを採用：並列知識蒸留とマルチモーダルコントラスト学習により、並列コーパスと画像テキストペアデータを効果的に活用します。

オープンアクセス

モデルはCreativeML OpenRAIL-Mライセンスに準拠しており、商用利用やサービス化が可能です。

モデル能力

多言語画像テキストマッチング

テキストから画像生成モデルのサポート

クロスランゲージ画像検索

使用事例

コンテンツ生成

多言語テキストから画像生成

AltDiffusion-m9多言語テキストから画像生成モデルにテキストエンコーディングサポートを提供

複数言語で記述された画像を生成可能

画像検索

クロスランゲージ画像検索

異なる言語のテキストを使用して関連画像を検索

多言語環境での画像検索効率を向上

🚀 AltCLIP-m9

このモデルは、英語（En）、中国語（Zh）、スペイン語（Es）、フランス語（Fr）、ロシア語（Ru）、日本語（Ja）、韓国語（Ko）、アラビア語（Ar）、イタリア語（It）をサポートしています。

名称 Name	タスク Task	言語 Language(s)	モデル Model	Github
AltCLIP - m9	テキスト - 画像	多言語	CLIP	[FlagAI](https://github.com/FlagAI - Open/FlagAI)

✨ 主な機能

🔍 概要

私たちは、より優れた9言語CLIPモデルを訓練するための簡単で効率的な方法を提案しました。このモデルはAltCLIP - m9と名付けられました。AltCLIPの訓練データは、WuDaoデータセットと LIAON から取得されています。

AltCLIP - m9モデルは、本プロジェクト内のAltDiffusion - m9モデルをサポートすることができます。AltDiffusion - m9モデルの詳細については、[このチュートリアル](https://github.com/FlagAI - Open/FlagAI/tree/master/examples/AltDiffusion/README.md) を参照してください。

モデルコードは [FlagAI](https://github.com/FlagAI - Open/FlagAI/tree/master/examples/AltCLIP) でオープンソース化されており、重みは私たちが構築した [modelhub](https://model.baai.ac.cn/model - detail/100077) にあります。また、微調整、推論、検証のスクリプトも提供しているので、ぜひ試してみてください。

📚 引用

AltCLIPに関する詳細は、以下の報告書で確認できます。もしあなたの研究に役立つ場合は、ぜひ引用してください。

@article{https://doi.org/10.48550/arxiv.2211.06679,
  doi = {10.48550/ARXIV.2211.06679},
  url = {https://arxiv.org/abs/2211.06679},
  author = {Chen, Zhongzhi and Liu, Guang and Zhang, Bo - Wen and Ye, Fulong and Yang, Qinghong and Wu, Ledell},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences},
  title = {AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non - exclusive license}
}

🔧 訓練

訓練は2つのフェーズから構成されています。平行知識蒸留フェーズでは、平行コーパステキストを使用して蒸留を行います（平行コーパスは画像 - テキストペアよりも取得が容易で、数量も多いです）。多言語対比学習フェーズでは、少量の中 - 英画像 - テキストペア（各言語で約600万）を使用して、テキストエンコーダを画像エンコーダに適合させます。

📈 下流性能

🎨 可視化効果

AltCLIPに基づいて、AltDiffusionモデルも開発しています。可視化効果は以下の通りです。

💻 使用例

基本的な使用法

from PIL import Image
import requests

# transformers version >= 4.21.0
from modeling_altclip import AltCLIP
from processing_altclip import AltCLIPProcessor

# now our repo's in private, so we need `use_auth_token=True`
model = AltCLIP.from_pretrained("BAAI/AltCLIP-m9")
processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP-m9")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities

モデル推論

[FlagAI AltCLIP](https://github.com/FlagAI - Open/FlagAI/tree/master/examples/AltCLIP) からコードをダウンロードしてください。

📄 ライセンス

このモデルはCreativeML OpenRAIL - Mライセンスの下で公開されています。詳細なライセンス内容は、[こちら](https://huggingface.co/spaces/CompVis/stable - diffusion - license) をご覧ください。

⚠️ 重要提示

このモデルを取得する前にもう1つの手順があります。このモデルはオープンアクセスで、すべてのユーザーが利用できますが、CreativeML OpenRAIL - Mライセンスによって権利と使用方法がさらに規定されています。 CreativeML OpenRAILライセンスには以下の点が規定されています。

このモデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有してはいけません。

BAAIは、あなたが生成した出力に対して一切の権利を主張せず、あなたはそれらを自由に使用できますが、ライセンスに定められた規定に違反してはいけません。

あなたは重みを再配布し、モデルを商用またはサービスとして使用することができます。その場合、ライセンスに記載されている同じ使用制限を含め、CreativeML OpenRAIL - Mのコピーをすべてのユーザーに共有する必要があります（ライセンス全体を注意深く読んでください）。以下の「アクセスリポジトリ」をクリックすることで、あなたの連絡先情報（メールアドレスとユーザー名）がモデル作成者と共有されることにも同意することになります。

「ライセンスを読み、その条項に同意します」にチェックを入れてください。