Multilabel GeoSceneNet
基於SigLIP架構微調的多標籤圖像分類模型,可識別7種地理場景元素
下載量 26
發布時間 : 4/22/2025
模型概述
該模型採用SiglipForImageClassification架構,專門用於識別單張圖像中的多種地理或環境元素,如建築、沙漠、冰川等。
模型特點
多標籤分類
可同時識別圖像中的多種地理場景元素
高精度
在7類場景上的平均F1分數達0.926
遙感優化
特別適合處理衛星和航拍圖像
模型能力
圖像分類
多標籤預測
地理場景識別
環境元素檢測
使用案例
遙感
衛星圖像標註
自動標註衛星圖像中的地理特徵
準確率92.45%
地理標記
自動地理標記
為圖像自動添加地理標籤以便搜索
環境監測
冰川變化監測
識別和追蹤冰川覆蓋變化
F1分數0.8732
🚀 多標籤地理場景網絡
多標籤地理場景網絡(Multilabel-GeoSceneNet)是一個基於視覺語言的編碼器模型,它從 google/siglip2-base-patch16-224 微調而來,用於進行多標籤圖像分類。該模型旨在使用 SiglipForImageClassification 架構識別並標記單張圖像中的多個地理或環境元素。
🚀 快速開始
安裝依賴
!pip install -q transformers torch pillow gradio
推理代碼
import gradio as gr
from transformers import AutoImageProcessor, SiglipForImageClassification
from PIL import Image
import torch
# Load model and processor
model_name = "prithivMLmods/Multilabel-GeoSceneNet" # Updated model name
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)
def classify_geoscene_image(image):
"""Predicts geographic scene labels for an input image."""
image = Image.fromarray(image).convert("RGB")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
probs = torch.sigmoid(logits).squeeze().tolist() # Sigmoid for multilabel
labels = {
"0": "Buildings and Structures",
"1": "Desert",
"2": "Forest Area",
"3": "Hill or Mountain",
"4": "Ice Glacier",
"5": "Sea or Ocean",
"6": "Street View"
}
threshold = 0.5
predictions = {
labels[str(i)]: round(probs[i], 3)
for i in range(len(probs)) if probs[i] >= threshold
}
return predictions or {"None Detected": 0.0}
# Create Gradio interface
iface = gr.Interface(
fn=classify_geoscene_image,
inputs=gr.Image(type="numpy"),
outputs=gr.Label(label="Predicted Scene Categories"),
title="Multilabel-GeoSceneNet",
description="Upload an image to detect multiple geographic scene elements (e.g., forest, ocean, buildings)."
)
if __name__ == "__main__":
iface.launch()
✨ 主要特性
- 多標籤識別:能夠識別單張圖像中的多個地理或環境元素。
- 高精度:在多個地理場景類別上表現出較高的準確率。
💻 使用示例
基礎用法
# 上述推理代碼即為基礎使用示例,保持原始代碼和註釋不變
import gradio as gr
from transformers import AutoImageProcessor, SiglipForImageClassification
from PIL import Image
import torch
# Load model and processor
model_name = "prithivMLmods/Multilabel-GeoSceneNet" # Updated model name
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)
def classify_geoscene_image(image):
"""Predicts geographic scene labels for an input image."""
image = Image.fromarray(image).convert("RGB")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
probs = torch.sigmoid(logits).squeeze().tolist() # Sigmoid for multilabel
labels = {
"0": "Buildings and Structures",
"1": "Desert",
"2": "Forest Area",
"3": "Hill or Mountain",
"4": "Ice Glacier",
"5": "Sea or Ocean",
"6": "Street View"
}
threshold = 0.5
predictions = {
labels[str(i)]: round(probs[i], 3)
for i in range(len(probs)) if probs[i] >= threshold
}
return predictions or {"None Detected": 0.0}
# Create Gradio interface
iface = gr.Interface(
fn=classify_geoscene_image,
inputs=gr.Image(type="numpy"),
outputs=gr.Label(label="Predicted Scene Categories"),
title="Multilabel-GeoSceneNet",
description="Upload an image to detect multiple geographic scene elements (e.g., forest, ocean, buildings)."
)
if __name__ == "__main__":
iface.launch()
📚 詳細文檔
分類報告
Classification Report:
precision recall f1-score support
Buildings and Structures 0.8881 0.9498 0.9179 2190
Desert 0.9649 0.9480 0.9564 2000
Forest Area 0.9807 0.9855 0.9831 2271
Hill or Mountain 0.8616 0.8993 0.8800 2512
Ice Glacier 0.9114 0.8382 0.8732 2404
Sea or Ocean 0.9328 0.9525 0.9426 2274
Street View 0.9476 0.9106 0.9287 2382
accuracy 0.9245 16033
macro avg 0.9267 0.9263 0.9260 16033
weighted avg 0.9253 0.9245 0.9244 16033
預期用途
多標籤地理場景網絡(Multilabel-GeoSceneNet)模型適用於識別單張圖像中的多個地理和結構元素。應用場景包括:
- 遙感:標記衛星或無人機圖像中的元素。
- 地理標籤:自動為圖像添加標籤,以便進行搜索或排序。
- 環境監測:識別冰川或森林等特徵。
- 場景理解:幫助自主系統解釋複雜場景。
📄 許可證
本項目採用 Apache-2.0 許可證。
信息表格
屬性 | 詳情 |
---|---|
模型類型 | 圖像分類 |
基礎模型 | google/siglip2-base-patch16-224 |
數據集 | prithivMLmods/Multilabel-GeoSceneNet-16K |
庫名稱 | transformers |
標籤 | Structures、Desert、Glacier、Street、Ocean、Image-Classifier、art、Mountain |
語言 | en |
管道標籤 | image-classification |
Nsfw Image Detection
Apache-2.0
基於ViT架構的NSFW圖像分類模型,通過監督學習在ImageNet-21k數據集上預訓練,並在80,000張圖像上微調,用於區分正常和NSFW內容。
圖像分類
Transformers

N
Falconsai
82.4M
588
Fairface Age Image Detection
Apache-2.0
基於Vision Transformer架構的圖像分類模型,在ImageNet-21k數據集上預訓練,適用於多類別圖像分類任務
圖像分類
Transformers

F
dima806
76.6M
10
Dinov2 Small
Apache-2.0
基於DINOv2方法訓練的小尺寸視覺Transformer模型,通過自監督學習提取圖像特徵
圖像分類
Transformers

D
facebook
5.0M
31
Vit Base Patch16 224
Apache-2.0
基於ImageNet-21k預訓練和ImageNet微調的視覺變換器模型,用於圖像分類任務
圖像分類
V
google
4.8M
775
Vit Base Patch16 224 In21k
Apache-2.0
基於ImageNet-21k數據集預訓練的視覺Transformer模型,用於圖像分類任務。
圖像分類
V
google
2.2M
323
Dinov2 Base
Apache-2.0
基於DINOv2方法訓練的視覺Transformer模型,通過自監督學習提取圖像特徵
圖像分類
Transformers

D
facebook
1.9M
126
Gender Classification
一個基於PyTorch和HuggingPics構建的圖像分類模型,用於識別圖像中的性別
圖像分類
Transformers

G
rizvandwiki
1.8M
48
Vit Base Nsfw Detector
Apache-2.0
基於Vision Transformer (ViT)架構的圖像分類模型,專門用於檢測圖像是否包含NSFW(不安全)內容。
圖像分類
Transformers

V
AdamCodd
1.2M
47
Vit Hybrid Base Bit 384
Apache-2.0
混合視覺變換器(ViT)模型結合了卷積網絡和Transformer架構,用於圖像分類任務,在ImageNet上表現出色。
圖像分類
Transformers

V
google
992.28k
6
Gender Classification 2
這是一個基於PyTorch框架和HuggingPics工具生成的圖像分類模型,專門用於性別分類任務。
圖像分類
Transformers

G
rizvandwiki
906.98k
32
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98