🚀 Git - RSCLIP
Git - RSCLIP是一个预训练模型,在256x256尺寸的Git - 10M数据集(一个全球尺度的遥感图像 - 文本对数据集,包含1000万对图像 - 文本)上进行预训练。该模型首次发布于此仓库,采用了与[google/siglip-large-patch16-256]相似的结构。此为大版本,基础版本可查看:[[Git - RSCLIP - base](https://huggingface.co/lcybuaa/Git - RSCLIP - base)]。
🚀 快速开始
你可以使用原始模型进行零样本图像分类和图像 - 文本检索等任务。
💻 使用示例
基础用法
使用Git - RSCLIP获取图像特征
from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel
import torch
model = AutoModel.from_pretrained("lcybuaa/Git-RSCLIP")
processor = AutoProcessor.from_pretrained("lcybuaa/Git-RSCLIP")
url = "https://github.com/Chen-Yang-Liu/PromptCC/blob/main/Example/B/train_000051.png?raw=true"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
image_features = model.get_image_features(**inputs)
零样本图像分类
from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel
import torch
model = AutoModel.from_pretrained("lcybuaa/Git-RSCLIP")
processor = AutoProcessor.from_pretrained("lcybuaa/Git-RSCLIP")
url = "https://github.com/Chen-Yang-Liu/PromptCC/blob/main/Example/B/train_000051.png?raw=true"
image = Image.open(requests.get(url, stream=True).raw)
texts = ["a remote sensing image of river", "a remote sensing image of houses and roads"]
inputs = processor(text=texts, images=image, padding="max_length", return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = torch.sigmoid(logits_per_image)
top5_indices = torch.argsort(probs, descending=True)[:, :5].cpu().numpy()
top1_indices = top5_indices[:, 0]
print(f"the image 0 is '{top1_indices[0]}'")
更多代码示例可参考文档。
🔧 技术细节
训练数据
Git - RSCLIP在Git - 10M数据集(一个全球尺度的遥感图像 - 文本对数据集,包含1000万对图像 - 文本)上进行预训练[(Liu et al., 2024)](https://github.com/chen - yang - liu/Text2Earth)。
预处理
- 图像:图像被调整大小/缩放至相同分辨率(256x256),并在RGB通道上进行归一化处理,均值为(0.5, 0.5, 0.5),标准差为(0.5, 0.5, 0.5)。
- 文本:文本被分词并填充至相同长度(64个标记)。
📚 详细文档
评估结果
Git - RSCLIP与其他CLIP模型的评估对比结果如下(取自论文)。

BibTeX引用和引用信息
@ARTICLE{10988859,
author={Liu, Chenyang and Chen, Keyan and Zhao, Rui and Zou, Zhengxia and Shi, Zhenwei},
journal={IEEE Geoscience and Remote Sensing Magazine},
title={Text2Earth: Unlocking text-driven remote sensing image generation with a global-scale dataset and a foundation model},
year={2025},
volume={},
number={},
pages={2-23},
doi={10.1109/MGRS.2025.3560455}}
📄 许可证
本项目采用Apache - 2.0许可证。
📋 其他信息
属性 |
详情 |
模型类型 |
适用于视觉、多模型、视觉 - 语言、遥感领域的文本到图像模型 |
训练数据 |
Git - 10M数据集(全球尺度的遥感图像 - 文本对数据集,包含1000万对图像 - 文本) |
基础模型 |
google/siglip - large - patch16 - 256 |
任务标签 |
文本到图像 |