🚀 モデルカード: clip-rsicd
このモデルは、ゼロショット画像分類、テキストから画像への検索、画像から画像への検索を、特にリモートセンシング画像に対して改善することを目的として設計された、OpenAIのCLIPをファインチューニングしたものです。
✨ 主な機能
- リモートセンシング画像に特化したゼロショット画像分類、テキストから画像への検索、画像から画像への検索の性能向上。
- 公開されているスクリプトを使用して、ファインチューニング手順を再現可能。
📦 インストール
モデルのファインチューニング手順を再現するには、公開されているスクリプトを使用できます。
💻 使用例
基本的な使用法
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("flax-community/clip-rsicd-v2")
processor = CLIPProcessor.from_pretrained("flax-community/clip-rsicd-v2")
url = "https://raw.githubusercontent.com/arampacha/CLIP-rsicd/master/data/stadium_1.jpg"
image = Image.open(requests.get(url, stream=True).raw)
labels = ["residential area", "playground", "stadium", "forest", "airport"]
inputs = processor(text=[f"a photo of a {l}" for l in labels], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
for l, p in zip(labels, probs[0]):
print(f"{l:<16} {p:.4f}")
Colabで試す
📚 ドキュメント
🔧 技術詳細
モデルの詳細
このモデルは、OpenAIのCLIPをファインチューニングしたものです。
モデルの日付
2021年7月
モデルのタイプ
ベースモデルは、画像エンコーダとしてViT-B/32 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスクされた自己注意Transformerを使用します。これらのエンコーダは、対照損失を介して(画像、テキスト)ペアの類似度を最大化するようにトレーニングされています。
モデルのバージョン
clip-rsicd
モデルにはいくつかのチェックポイントをリリースしています。それぞれのゼロショット分類の性能指標については、私たちのGitHubリポジトリを参照してください。
トレーニング
モデルは、バッチサイズ1024、adafactorオプティマイザーを使用し、線形ウォームアップと減衰を行い、ピーク学習率1e-4で1つのTPU-v3-8上でトレーニングされました。トレーニング実行の完全なログは、WandBで確認できます。
デモ
このデモを使用して、モデルのテキストから画像への検索と画像から画像への検索の機能を確認してください。
モデルの使用
意図された使用法
このモデルは、研究コミュニティ向けの研究成果として意図されています。私たちは、このモデルが研究者によるゼロショット、任意の画像分類の理解と探索を促進することを期待しています。
また、防衛や法執行、気候変動や地球温暖化、さらにはいくつかの消費者向けアプリケーションにおける応用も考えられます。応用例の一部のリストは、ここで確認できます。一般的に、このようなモデルは、大量の画像コレクションを検索する人間のデジタルアシスタントとして役立つと考えています。
私たちはまた、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています - CLIPの論文には、このような分析の例として潜在的な下流の影響に関する議論が含まれています。
主な意図された使用法
これらのモデルの主な意図されたユーザーは、AI研究者です。
私たちは主に、研究者がコンピュータビジョンモデルのロバスト性、汎化性、その他の機能、バイアス、制約をよりよく理解するためにこのモデルを使用することを想定しています。
データ
モデルは、公開されているリモートセンシング画像のキャプションデータセットでトレーニングされています。具体的には、RSICD、UCM、およびSydneyです。使用されたデータセットの詳細情報は、私たちのプロジェクトページで確認できます。
性能と制限
性能
モデル名 |
k=1 |
k=3 |
k=5 |
k=10 |
オリジナルのCLIP |
0.572 |
0.745 |
0.837 |
0.939 |
clip-rsicd-v2 (このモデル) |
0.883 |
0.968 |
0.982 |
0.998 |
制限
このモデルはRSIデータでファインチューニングされていますが、元のCLIPモデルのいくつかのバイアスや制限を含んでいる可能性があります。詳細については、CLIPモデルカードを参照してください。
情報テーブル
| 属性 | 详情 |
| ---- | ---- |
| モデルタイプ | ベースモデルは、画像エンコーダとしてViT-B/32 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスクされた自己注意Transformerを使用します。これらのエンコーダは、対照損失を介して(画像、テキスト)ペアの類似度を最大化するようにトレーニングされています。 |
| トレーニングデータ | モデルは、公開されているリモートセンシング画像のキャプションデータセットでトレーニングされています。具体的には、[RSICD](https://github.com/201528014227051/RSICD_optimal)、[UCM](https://mega.nz/folder/wCpSzSoS#RXzIlrv--TDt3ENZdKN8JA)、および[Sydney](https://mega.nz/folder/pG4yTYYA#4c4buNFLibryZnlujsrwEQ)です。 |