Fashion-Mnist-SigLIP2開源時尚圖像分類模型 - 精準分類Fashion-MNIST數據集圖像

首頁

Fashion Mnist SigLIP2

由prithivMLmods開發

基於SigLIP2架構微調的時尚圖像分類模型，專為Fashion-MNIST數據集設計

圖像分類

Transformers

英語開源協議:Apache-2.0 #時尚圖像分類 #高精度分類 #電商商品標記

下載量 439

發布時間 : 3/21/2025

模型概述

該模型是一個視覺-語言編碼器模型，能夠將時尚圖像分類為10個預定義的Fashion-MNIST類別，如T恤、褲子、連衣裙等。

模型特點

高精度分類

在Fashion-MNIST測試集上達到91.8%的準確率，部分類別如褲子和包的F1分數超過99%

基於SigLIP2架構

採用google/siglip2-base-patch16-224基礎模型，具有改進的語義理解和定位能力

輕量級部署

支持通過Transformers庫快速部署，兼容Gradio等交互式演示工具

模型能力

時尚圖像分類

多類別識別

視覺特徵提取

使用案例

電子商務

商品自動分類

為在線零售平臺自動分類服裝商品

優化商品搜索和推薦系統

庫存管理

自動化時尚物品庫存分類

提高庫存管理效率

教育研究

AI教學示例

作為計算機視覺和機器學習課程的實踐案例

🚀 Fashion-Mnist-SigLIP2

Fashion-Mnist-SigLIP2 是一個圖像分類的視覺語言編碼器模型，它基於 google/siglip2-base-patch16-224 進行微調，用於單標籤分類任務。該模型旨在使用 SiglipForImageClassification 架構將圖像分類到 Fashion-MNIST 類別中。

✨ 主要特性

基於預訓練模型 google/siglip2-base-patch16-224 微調，用於時尚圖像分類。
能夠將圖像準確分類到 10 個 Fashion-MNIST 類別中。

📦 安裝指南

!pip install -q transformers torch pillow gradio

💻 使用示例

基礎用法

import gradio as gr
from transformers import AutoImageProcessor
from transformers import SiglipForImageClassification
from transformers.image_utils import load_image
from PIL import Image
import torch

# 加載模型和處理器
model_name = "prithivMLmods/Fashion-Mnist-SigLIP2"
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)

def fashion_mnist_classification(image):
    """預測圖像的時尚類別。"""
    image = Image.fromarray(image).convert("RGB")
    inputs = processor(images=image, return_tensors="pt")
    
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
        probs = torch.nn.functional.softmax(logits, dim=1).squeeze().tolist()
    
    labels = {
        "0": "T-shirt / top", "1": "Trouser", "2": "Pullover", "3": "Dress", "4": "Coat",
        "5": "Sandal", "6": "Shirt", "7": "Sneaker", "8": "Bag", "9": "Ankle boot"
    }
    predictions = {labels[str(i)]: round(probs[i], 3) for i in range(len(probs))}
    
    return predictions

# 創建 Gradio 界面
iface = gr.Interface(
    fn=fashion_mnist_classification,
    inputs=gr.Image(type="numpy"),
    outputs=gr.Label(label="Prediction Scores"),
    title="Fashion MNIST Classification Labels",
    description="上傳一張圖像，將其分類到 10 個 Fashion-MNIST 類別之一。"
)

# 啟動應用
if __name__ == "__main__":
    iface.launch()

📚 詳細文檔

分類報告

Classification Report:
               precision    recall  f1-score   support

T-shirt / top     0.8142    0.9147    0.8615      6000
      Trouser     0.9935    0.9870    0.9902      6000
     Pullover     0.8901    0.8610    0.8753      6000
        Dress     0.9098    0.9300    0.9198      6000
         Coat     0.8636    0.8865    0.8749      6000
       Sandal     0.9857    0.9847    0.9852      6000
        Shirt     0.8076    0.6962    0.7478      6000
      Sneaker     0.9663    0.9695    0.9679      6000
          Bag     0.9779    0.9805    0.9792      6000
   Ankle boot     0.9698    0.9700    0.9699      6000

     accuracy                         0.9180     60000
    macro avg     0.9179    0.9180    0.9172     60000
 weighted avg     0.9179    0.9180    0.9172     60000

分類類別

該模型將圖像分為以下 10 個類別：

類別 0: "T恤/上衣"
類別 1: "褲子"
類別 2: "套頭衫"
類別 3: "連衣裙"
類別 4: "外套"
類別 5: "涼鞋"
類別 6: "襯衫"
類別 7: "運動鞋"
類別 8: "包"
類別 9: "短靴"

- visual selection.png

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features https://arxiv.org/pdf/2502.14786

🔧 技術細節

該模型基於 SiglipForImageClassification 架構，從 google/siglip2-base-patch16-224 微調而來，用於時尚圖像分類任務。通過對輸入圖像進行處理，模型能夠輸出每個 Fashion-MNIST 類別的預測概率。

📄 許可證

本項目採用 Apache-2.0 許可證。

📋 信息表格

屬性	詳情
模型類型	圖像分類視覺語言編碼器模型
基礎模型	google/siglip2-base-patch16-224
訓練數據集	zalando-datasets/fashion_mnist
庫名稱	transformers
標籤	fashion、mnist、siglip2
管道標籤	image-classification