clip-rsicd-v2オープンソースリモートセンシング画像モデル、無料でデプロイ可能、分類とクロスモーダル検索能力を向上させる

ホーム

Clip Rsicd V2

flax-communityによって開発

OpenAI CLIPをファインチューニングしたリモートセンシング画像専用モデル、ゼロショット分類とクロスモーダル検索能力を向上

テキスト生成画像 #リモートセンシング画像検索 #ゼロショット分類 #マルチモーダルコントラスト学習

ダウンロード数 3,229

リリース時間 : 3/2/2022

モデル概要

このモデルはリモートセンシング画像に最適化され、ゼロショット画像分類、テキストから画像、および画像から画像の検索タスクを実行でき、地理空間分析シナリオに特に適しています。

モデル特徴

リモートセンシング分野最適化

RSICDなどの専門データセットでファインチューニングし、衛星/航空画像の理解能力を大幅に向上

ゼロショット分類

特定のクラス訓練なしで新しいクラスの画像分類が可能

クロスモーダル検索

テキストから画像および画像から画像の双方向検索をサポート

効率的な訓練

TPU-v3-8ハードウェアとAdafactorオプティマイザを使用して迅速な収束を実現

モデル能力

リモートセンシング画像分類

テキストから画像検索

画像から画像検索

ゼロショット学習

使用事例

地理空間分析

土地利用分類

衛星画像中の住宅地、森林、空港などの地物タイプを自動識別

RSICDデータセットで88.3%のtop-1精度を達成

災害評価

テキスト記述を通じて被災地域画像を検索

国防セキュリティ

重要施設監視

軍事基地、港湾などの重要施設を自動検出

🚀 モデルカード: clip-rsicd

このモデルは、ゼロショット画像分類、テキストから画像への検索、画像から画像への検索を、特にリモートセンシング画像に対して改善することを目的として設計された、OpenAIのCLIPをファインチューニングしたものです。

✨ 主な機能

リモートセンシング画像に特化したゼロショット画像分類、テキストから画像への検索、画像から画像への検索の性能向上。
公開されているスクリプトを使用して、ファインチューニング手順を再現可能。

📦 インストール

モデルのファインチューニング手順を再現するには、公開されているスクリプトを使用できます。

💻 使用例

基本的な使用法

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("flax-community/clip-rsicd-v2")
processor = CLIPProcessor.from_pretrained("flax-community/clip-rsicd-v2")

url = "https://raw.githubusercontent.com/arampacha/CLIP-rsicd/master/data/stadium_1.jpg"
image = Image.open(requests.get(url, stream=True).raw)

labels = ["residential area", "playground", "stadium", "forest", "airport"]
inputs = processor(text=[f"a photo of a {l}" for l in labels], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities
for l, p in zip(labels, probs[0]):
    print(f"{l:<16} {p:.4f}")

Colabで試す

📚 ドキュメント

TPUを使用してColab上でHuggingFaceとflax/jaxを用いてRSICD上のCLIPをファインチューニングする

🔧 技術詳細

モデルの詳細

このモデルは、OpenAIのCLIPをファインチューニングしたものです。

モデルの日付

2021年7月

モデルのタイプ

ベースモデルは、画像エンコーダとしてViT-B/32 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスクされた自己注意Transformerを使用します。これらのエンコーダは、対照損失を介して（画像、テキスト）ペアの類似度を最大化するようにトレーニングされています。

モデルのバージョン

clip-rsicdモデルにはいくつかのチェックポイントをリリースしています。それぞれのゼロショット分類の性能指標については、私たちのGitHubリポジトリを参照してください。

トレーニング

モデルは、バッチサイズ1024、adafactorオプティマイザーを使用し、線形ウォームアップと減衰を行い、ピーク学習率1e-4で1つのTPU-v3-8上でトレーニングされました。トレーニング実行の完全なログは、WandBで確認できます。

デモ

このデモを使用して、モデルのテキストから画像への検索と画像から画像への検索の機能を確認してください。

モデルの使用

意図された使用法

このモデルは、研究コミュニティ向けの研究成果として意図されています。私たちは、このモデルが研究者によるゼロショット、任意の画像分類の理解と探索を促進することを期待しています。

また、防衛や法執行、気候変動や地球温暖化、さらにはいくつかの消費者向けアプリケーションにおける応用も考えられます。応用例の一部のリストは、ここで確認できます。一般的に、このようなモデルは、大量の画像コレクションを検索する人間のデジタルアシスタントとして役立つと考えています。

私たちはまた、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています - CLIPの論文には、このような分析の例として潜在的な下流の影響に関する議論が含まれています。

主な意図された使用法

これらのモデルの主な意図されたユーザーは、AI研究者です。

私たちは主に、研究者がコンピュータビジョンモデルのロバスト性、汎化性、その他の機能、バイアス、制約をよりよく理解するためにこのモデルを使用することを想定しています。

データ

モデルは、公開されているリモートセンシング画像のキャプションデータセットでトレーニングされています。具体的には、RSICD、UCM、およびSydneyです。使用されたデータセットの詳細情報は、私たちのプロジェクトページで確認できます。

性能と制限

性能

モデル名	k=1	k=3	k=5	k=10
オリジナルのCLIP	0.572	0.745	0.837	0.939
clip-rsicd-v2 (このモデル)	0.883	0.968	0.982	0.998

制限

このモデルはRSIデータでファインチューニングされていますが、元のCLIPモデルのいくつかのバイアスや制限を含んでいる可能性があります。詳細については、CLIPモデルカードを参照してください。

情報テーブル

| 属性 | 详情 |
| ---- | ---- |
| モデルタイプ | ベースモデルは、画像エンコーダとしてViT-B/32 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスクされた自己注意Transformerを使用します。これらのエンコーダは、対照損失を介して（画像、テキスト）ペアの類似度を最大化するようにトレーニングされています。 |
| トレーニングデータ | モデルは、公開されているリモートセンシング画像のキャプションデータセットでトレーニングされています。具体的には、[RSICD](https://github.com/201528014227051/RSICD_optimal)、[UCM](https://mega.nz/folder/wCpSzSoS#RXzIlrv--TDt3ENZdKN8JA)、および[Sydney](https://mega.nz/folder/pG4yTYYA#4c4buNFLibryZnlujsrwEQ)です。 |