🚀 Multilabel-GeoSceneNet
Multilabel-GeoSceneNet は、多ラベル画像分類のために google/siglip2-base-patch16-224 から微調整されたビジョン言語エンコーダーモデルです。SiglipForImageClassification アーキテクチャを使用して、1枚の画像内の複数の地理的または環境的要素を認識してラベル付けするように設計されています。

🚀 クイックスタート
このモデルを使用する前に、必要な依存関係をインストールする必要があります。以下のコマンドを実行してください。
!pip install -q transformers torch pillow gradio
✨ 主な機能
- 単一の画像内の複数の地理的または環境的要素を認識してラベル付けすることができます。
- 以下の7つの地理シーンカテゴリを予測することができます。
- Buildings and Structures
- Desert
- Forest Area
- Hill or Mountain
- Ice Glacier
- Sea or Ocean
- Street View
📦 インストール
依存関係のインストールについては、「クイックスタート」セクションを参照してください。
💻 使用例
基本的な使用法
以下のコードは、Multilabel-GeoSceneNet モデルを使用して画像を分類する基本的な例です。
import gradio as gr
from transformers import AutoImageProcessor, SiglipForImageClassification
from PIL import Image
import torch
model_name = "prithivMLmods/Multilabel-GeoSceneNet"
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)
def classify_geoscene_image(image):
"""Predicts geographic scene labels for an input image."""
image = Image.fromarray(image).convert("RGB")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
probs = torch.sigmoid(logits).squeeze().tolist()
labels = {
"0": "Buildings and Structures",
"1": "Desert",
"2": "Forest Area",
"3": "Hill or Mountain",
"4": "Ice Glacier",
"5": "Sea or Ocean",
"6": "Street View"
}
threshold = 0.5
predictions = {
labels[str(i)]: round(probs[i], 3)
for i in range(len(probs)) if probs[i] >= threshold
}
return predictions or {"None Detected": 0.0}
iface = gr.Interface(
fn=classify_geoscene_image,
inputs=gr.Image(type="numpy"),
outputs=gr.Label(label="Predicted Scene Categories"),
title="Multilabel-GeoSceneNet",
description="Upload an image to detect multiple geographic scene elements (e.g., forest, ocean, buildings)."
)
if __name__ == "__main__":
iface.launch()
高度な使用法
このコードでは、画像をアップロードして複数の地理シーン要素(森林、海洋、建物など)を検出することができます。
📚 ドキュメント
分類レポート
以下は、モデルの分類レポートです。
Classification Report:
precision recall f1-score support
Buildings and Structures 0.8881 0.9498 0.9179 2190
Desert 0.9649 0.9480 0.9564 2000
Forest Area 0.9807 0.9855 0.9831 2271
Hill or Mountain 0.8616 0.8993 0.8800 2512
Ice Glacier 0.9114 0.8382 0.8732 2404
Sea or Ocean 0.9328 0.9525 0.9426 2274
Street View 0.9476 0.9106 0.9287 2382
accuracy 0.9245 16033
macro avg 0.9267 0.9263 0.9260 16033
weighted avg 0.9253 0.9245 0.9244 16033
予測されるカテゴリ
モデルは、以下の7つの地理シーンカテゴリの1つまたは複数の存在を予測します。
Class 0: "Buildings and Structures"
Class 1: "Desert"
Class 2: "Forest Area"
Class 3: "Hill or Mountain"
Class 4: "Ice Glacier"
Class 5: "Sea or Ocean"
Class 6: "Street View"
意図された使用法
Multilabel-GeoSceneNet モデルは、単一の画像内の複数の地理的および構造的要素を認識するのに適しています。使用例は以下の通りです。
- リモートセンシング:衛星またはドローンの画像内の要素にラベル付けします。
- 地理的タグ付け:検索またはソートのために画像を自動的にタグ付けします。
- 環境モニタリング:氷河や森林などの特徴を識別します。
- シーン理解:自律システムが複雑なシーンを解釈するのを支援します。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
関連情報
プロパティ |
詳細 |
モデルタイプ |
ビジョン言語エンコーダーモデル |
訓練データ |
prithivMLmods/Multilabel-GeoSceneNet-16K |
ライブラリ名 |
transformers |
ベースモデル |
google/siglip2-base-patch16-224 |
パイプラインタグ |
画像分類 |
タグ |
Structures, Desert, Glacier, Street, Ocean, Image-Classifier, art, Mountain |
