🚀 クリップ-リモートセンシング画像キャプショニングモデル (clip-rsicd)
このモデルは、リモートセンシング画像に特化したゼロショット画像分類、テキストから画像への検索、画像から画像への検索を向上させることを目的として設計された、微調整されたOpenAIのCLIPです。
🚀 クイックスタート
このモデルを使って、リモートセンシング画像に関するゼロショット画像分類や検索を行うことができます。以下に、transformers
ライブラリを使った使用例を示します。
✨ 主な機能
- リモートセンシング画像に特化したゼロショット画像分類、テキストから画像への検索、画像から画像への検索を向上させる。
- 公開されているリモートセンシング画像キャプションデータセットで学習されている。
📦 インストール
このモデルを使用するには、transformers
ライブラリをインストールする必要があります。
pip install transformers
💻 使用例
基本的な使用法
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("flax-community/clip-rsicd")
processor = CLIPProcessor.from_pretrained("flax-community/clip-rsicd")
url = "https://raw.githubusercontent.com/arampacha/CLIP-rsicd/master/data/stadium_1.jpg"
image = Image.open(requests.get(url, stream=True).raw)
labels = ["residential area", "playground", "stadium", "forrest", "airport"]
inputs = processor(text=[f"a photo of a {l}" for l in labels], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
for l, p in zip(labels, probs[0]):
print(f"{l:<16} {p:.4f}")
Colabで試す
📚 ドキュメント
🔧 技術詳細
モデルの日付
2021年7月
モデルの種類
Property |
Details |
Model Type |
ベースモデルは、画像エンコーダとしてViT-B/32 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスクされた自己注意Transformerを使用します。これらのエンコーダは、対照損失を介して(画像、テキスト)ペアの類似度を最大化するように訓練されています。 |
Training Data |
このモデルは、公開されているリモートセンシング画像キャプションデータセットで学習されています。具体的にはRSICD、UCM、Sydneyです。使用されたデータセットの詳細については、私たちのプロジェクトページを参照してください。 |
モデルのバージョン
clip-rsicd
モデルのいくつかのチェックポイントを公開しています。それぞれのゼロショット分類の性能指標については、私たちのGitHubリポジトリを参照してください。
学習
微調整手順を再現するには、公開されているスクリプトを使用できます。
このモデルは、バッチサイズ1024、線形ウォームアップと減衰を伴うadafactorオプティマイザを使用し、ピーク学習率1e-4で1台のTPU-v3-8上で学習されました。
学習実行の完全なログは、WandBで確認できます。
デモ
このデモを使用して、モデルのテキストから画像への検索と画像から画像への検索機能を確認してください。
モデルの使用
意図された使用法
このモデルは、研究コミュニティ向けの研究成果として意図されています。私たちは、このモデルが研究者がゼロショット、任意の画像分類をよりよく理解し、探索することを可能にすることを期待しています。
また、防衛や法執行、気候変動や地球温暖化、さらにはいくつかの消費者向けアプリケーションにおける応用も考えられます。応用例の一部のリストは、ここで確認できます。一般的に、このようなモデルは、大量の画像コレクションを検索する人間のデジタルアシスタントとして役立つと考えています。
私たちはまた、このようなモデルの潜在的な影響に関する学際的な研究にも使用できることを期待しています - CLIP論文には、このような分析の例として潜在的な下流の影響に関する議論が含まれています。
主な意図された使用法
これらのモデルの主な意図されたユーザーはAI研究者です。
私たちは主に、研究者がコンピュータビジョンモデルのロバスト性、汎化性、およびその他の能力、バイアス、制約をよりよく理解するためにこのモデルを使用することを想像しています。
データ
このモデルは、公開されているリモートセンシング画像キャプションデータセットで学習されています。具体的にはRSICD、UCM、Sydneyです。使用されたデータセットの詳細については、私たちのプロジェクトページを参照してください。
性能と制限
性能
モデル名 |
k=1 |
k=3 |
k=5 |
k=10 |
オリジナルのCLIP |
0.572 |
0.745 |
0.837 |
0.939 |
clip-rsicd (このモデル) |
0.843 |
0.958 |
0.977 |
0.993 |
制限
このモデルはRSIデータで微調整されていますが、元のCLIPモデルのいくつかのバイアスと制限を含む可能性があります。詳細については、CLIPモデルカードを参照してください。