Clip Rsicd V2

C

Clip Rsicd V2

由flax-community開發

基於OpenAI CLIP微調的遙感圖像專用模型，提升零樣本分類和跨模態檢索能力

文本生成圖像 #遙感圖像檢索 #零樣本分類 #多模態對比學習

下載量 3,229

發布時間 : 3/2/2022

模型概述

該模型針對遙感圖像優化，能夠執行零樣本圖像分類、文本到圖像及圖像到圖像檢索任務，特別適用於地理空間分析場景。

模型特點

遙感領域優化

通過RSICD等專業數據集微調，顯著提升對衛星/航拍圖像的理解能力

零樣本分類

無需特定類別訓練即可對新類別進行圖像分類

跨模態檢索

支持文本到圖像及圖像到圖像的雙向檢索

高效訓練

使用TPU-v3-8硬件和Adafactor優化器實現快速收斂

模型能力

遙感圖像分類

文本到圖像檢索

圖像到圖像檢索

零樣本學習

使用案例

地理空間分析

土地利用分類

自動識別衛星圖像中的住宅區、森林、機場等地物類型

在RSICD數據集上達到88.3%的top-1準確率

災害評估

通過文本描述檢索受災區域圖像

國防安全

關鍵設施監測

自動檢測軍事基地、港口等重要設施

🚀 模型卡片：clip-rsicd

本模型是基於 OpenAI的CLIP 進行微調的模型。其旨在提升零樣本圖像分類、文本到圖像以及圖像到圖像檢索的性能，尤其針對遙感圖像。

🚀 快速開始

與Transformers庫結合使用

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("flax-community/clip-rsicd-v2")
processor = CLIPProcessor.from_pretrained("flax-community/clip-rsicd-v2")

url = "https://raw.githubusercontent.com/arampacha/CLIP-rsicd/master/data/stadium_1.jpg"
image = Image.open(requests.get(url, stream=True).raw)

labels = ["residential area", "playground", "stadium", "forest", "airport"]
inputs = processor(text=[f"a photo of a {l}" for l in labels], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities
for l, p in zip(labels, probs[0]):
    print(f"{l:<16} {p:.4f}")

在colab中嘗試

✨ 主要特性

基於微調的CLIP模型，專注於提升遙感圖像的零樣本分類和檢索能力。
發佈多個檢查點，可參考 GitHub倉庫獲取各檢查點的零樣本分類性能指標。
提供了復現微調過程的腳本，方便研究者進行實驗。

📦 安裝指南

若要復現微調過程，可使用發佈的腳本。模型在1個TPU-v3-8上使用批量大小1024、adafactor優化器（線性熱身和衰減，峰值學習率1e-4）進行訓練。訓練運行的完整日誌可在 WandB 上找到。

📚 詳細文檔

在Colab上使用TPU和HuggingFace、flax/jax對RSICD上的CLIP進行微調

🔧 技術細節

模型詳情

模型日期

2021年7月

模型類型

基礎模型使用ViT-B/32 Transformer架構作為圖像編碼器，使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練，以最大化（圖像，文本）對的相似度。

模型版本

我們為 clip-rsicd 模型發佈了多個檢查點。各檢查點的零樣本分類性能指標可參考我們的GitHub倉庫。

訓練

模型在公開可用的遙感圖像字幕數據集上進行訓練，具體包括 RSICD、UCM 和 Sydney。更多關於所用數據集的信息可在我們的項目頁面上找到。

📄 許可證

文檔中未提及相關許可證信息。

📊 性能與侷限性

性能

模型名稱	k=1	k=3	k=5	k=10
原始CLIP	0.572	0.745	0.837	0.939
clip-rsicd-v2（本模型）	0.883	0.968	0.982	0.998

侷限性

該模型在遙感圖像數據上進行了微調，但可能包含原始CLIP模型的一些偏差和侷限性。具體細節可參考 CLIP模型卡片。

🎮 模型使用

預期用途

本模型旨在作為研究成果供研究社區使用。我們希望該模型能幫助研究人員更好地理解和探索零樣本、任意圖像分類。

此外，我們設想該模型可應用於國防和執法、氣候變化和全球變暖等領域，甚至一些消費級應用。部分應用列表可在此處找到。總體而言，我們認為此類模型可作為人類搜索大量圖像集的數字助手。

我們還希望該模型可用於跨學科研究，分析此類模型的潛在影響 - CLIP論文中包含了對潛在下游影響的討論，可為這類分析提供示例。

主要預期用途

這些模型的主要預期用戶是AI研究人員。

我們主要設想研究人員將使用該模型，以更好地理解計算機視覺模型的魯棒性、泛化能力以及其他能力、偏差和侷限性。

演示

可通過此演示查看模型的文本到圖像和圖像到圖像檢索能力。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase