🚀 模型卡片:clip-rsicd
本模型是基於 OpenAI的CLIP 進行微調的模型。其旨在提升零樣本圖像分類、文本到圖像以及圖像到圖像檢索的性能,尤其針對遙感圖像。
🚀 快速開始
與Transformers庫結合使用
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("flax-community/clip-rsicd-v2")
processor = CLIPProcessor.from_pretrained("flax-community/clip-rsicd-v2")
url = "https://raw.githubusercontent.com/arampacha/CLIP-rsicd/master/data/stadium_1.jpg"
image = Image.open(requests.get(url, stream=True).raw)
labels = ["residential area", "playground", "stadium", "forest", "airport"]
inputs = processor(text=[f"a photo of a {l}" for l in labels], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
for l, p in zip(labels, probs[0]):
print(f"{l:<16} {p:.4f}")
在colab中嘗試
✨ 主要特性
- 基於微調的CLIP模型,專注於提升遙感圖像的零樣本分類和檢索能力。
- 發佈多個檢查點,可參考 GitHub倉庫 獲取各檢查點的零樣本分類性能指標。
- 提供了復現微調過程的腳本,方便研究者進行實驗。
📦 安裝指南
若要復現微調過程,可使用發佈的 腳本。模型在1個TPU-v3-8上使用批量大小1024、adafactor優化器(線性熱身和衰減,峰值學習率1e-4)進行訓練。訓練運行的完整日誌可在 WandB 上找到。
📚 詳細文檔
🔧 技術細節
模型詳情
模型日期
2021年7月
模型類型
基礎模型使用ViT-B/32 Transformer架構作為圖像編碼器,使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練,以最大化(圖像,文本)對的相似度。
模型版本
我們為 clip-rsicd
模型發佈了多個檢查點。各檢查點的零樣本分類性能指標可參考 我們的GitHub倉庫。
訓練
模型在公開可用的遙感圖像字幕數據集上進行訓練,具體包括 RSICD、UCM 和 Sydney。更多關於所用數據集的信息可在 我們的項目頁面 上找到。
📄 許可證
文檔中未提及相關許可證信息。
📊 性能與侷限性
性能
模型名稱 |
k=1 |
k=3 |
k=5 |
k=10 |
原始CLIP |
0.572 |
0.745 |
0.837 |
0.939 |
clip-rsicd-v2(本模型) |
0.883 |
0.968 |
0.982 |
0.998 |
侷限性
該模型在遙感圖像數據上進行了微調,但可能包含原始CLIP模型的一些偏差和侷限性。具體細節可參考 CLIP模型卡片。
🎮 模型使用
預期用途
本模型旨在作為研究成果供研究社區使用。我們希望該模型能幫助研究人員更好地理解和探索零樣本、任意圖像分類。
此外,我們設想該模型可應用於國防和執法、氣候變化和全球變暖等領域,甚至一些消費級應用。部分應用列表可在 此處 找到。總體而言,我們認為此類模型可作為人類搜索大量圖像集的數字助手。
我們還希望該模型可用於跨學科研究,分析此類模型的潛在影響 - CLIP論文中包含了對潛在下游影響的討論,可為這類分析提供示例。
主要預期用途
這些模型的主要預期用戶是AI研究人員。
我們主要設想研究人員將使用該模型,以更好地理解計算機視覺模型的魯棒性、泛化能力以及其他能力、偏差和侷限性。
演示
可通過 此演示 查看模型的文本到圖像和圖像到圖像檢索能力。