🚀 Fashion-Mnist-SigLIP2
Fashion-Mnist-SigLIP2 是一個圖像分類的視覺語言編碼器模型,它基於 google/siglip2-base-patch16-224 進行微調,用於單標籤分類任務。該模型旨在使用 SiglipForImageClassification 架構將圖像分類到 Fashion-MNIST 類別中。

✨ 主要特性
- 基於預訓練模型 google/siglip2-base-patch16-224 微調,用於時尚圖像分類。
- 能夠將圖像準確分類到 10 個 Fashion-MNIST 類別中。
📦 安裝指南
!pip install -q transformers torch pillow gradio
💻 使用示例
基礎用法
import gradio as gr
from transformers import AutoImageProcessor
from transformers import SiglipForImageClassification
from transformers.image_utils import load_image
from PIL import Image
import torch
model_name = "prithivMLmods/Fashion-Mnist-SigLIP2"
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)
def fashion_mnist_classification(image):
"""預測圖像的時尚類別。"""
image = Image.fromarray(image).convert("RGB")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
probs = torch.nn.functional.softmax(logits, dim=1).squeeze().tolist()
labels = {
"0": "T-shirt / top", "1": "Trouser", "2": "Pullover", "3": "Dress", "4": "Coat",
"5": "Sandal", "6": "Shirt", "7": "Sneaker", "8": "Bag", "9": "Ankle boot"
}
predictions = {labels[str(i)]: round(probs[i], 3) for i in range(len(probs))}
return predictions
iface = gr.Interface(
fn=fashion_mnist_classification,
inputs=gr.Image(type="numpy"),
outputs=gr.Label(label="Prediction Scores"),
title="Fashion MNIST Classification Labels",
description="上傳一張圖像,將其分類到 10 個 Fashion-MNIST 類別之一。"
)
if __name__ == "__main__":
iface.launch()
📚 詳細文檔
分類報告
Classification Report:
precision recall f1-score support
T-shirt / top 0.8142 0.9147 0.8615 6000
Trouser 0.9935 0.9870 0.9902 6000
Pullover 0.8901 0.8610 0.8753 6000
Dress 0.9098 0.9300 0.9198 6000
Coat 0.8636 0.8865 0.8749 6000
Sandal 0.9857 0.9847 0.9852 6000
Shirt 0.8076 0.6962 0.7478 6000
Sneaker 0.9663 0.9695 0.9679 6000
Bag 0.9779 0.9805 0.9792 6000
Ankle boot 0.9698 0.9700 0.9699 6000
accuracy 0.9180 60000
macro avg 0.9179 0.9180 0.9172 60000
weighted avg 0.9179 0.9180 0.9172 60000
分類類別
該模型將圖像分為以下 10 個類別:
- 類別 0: "T恤/上衣"
- 類別 1: "褲子"
- 類別 2: "套頭衫"
- 類別 3: "連衣裙"
- 類別 4: "外套"
- 類別 5: "涼鞋"
- 類別 6: "襯衫"
- 類別 7: "運動鞋"
- 類別 8: "包"
- 類別 9: "短靴"

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features https://arxiv.org/pdf/2502.14786

🔧 技術細節
該模型基於 SiglipForImageClassification 架構,從 google/siglip2-base-patch16-224 微調而來,用於時尚圖像分類任務。通過對輸入圖像進行處理,模型能夠輸出每個 Fashion-MNIST 類別的預測概率。
📄 許可證
本項目採用 Apache-2.0 許可證。
📋 信息表格
屬性 |
詳情 |
模型類型 |
圖像分類視覺語言編碼器模型 |
基礎模型 |
google/siglip2-base-patch16-224 |
訓練數據集 |
zalando-datasets/fashion_mnist |
庫名稱 |
transformers |
標籤 |
fashion、mnist、siglip2 |
管道標籤 |
image-classification |
📖 預期用途
Fashion-Mnist-SigLIP2 模型專為時尚圖像分類而設計,它有助於將服裝和鞋類物品分類到預定義的 Fashion-MNIST 類別中。潛在的使用場景包括:
- 時尚識別:將時尚圖像分類為常見類別,如襯衫、運動鞋和連衣裙。
- 電子商務應用:協助在線零售商組織和標記服裝物品,以實現更好的搜索和推薦。
- 自動化時尚分類:幫助自動化庫存管理系統對時尚物品進行分類。
- 教育目的:支持基於視覺的時尚分類模型的人工智能和機器學習研究。