Fashion-Mnist-SigLIP2开源时尚图像分类模型 - 精准分类Fashion-MNIST数据集图像

首页

Fashion Mnist SigLIP2

由 prithivMLmods 开发

基于SigLIP2架构微调的时尚图像分类模型，专为Fashion-MNIST数据集设计

图像分类

Transformers

英语开源协议:Apache-2.0 #时尚图像分类 #高精度分类 #电商商品标记

下载量 439

发布时间 : 3/21/2025

模型简介

该模型是一个视觉-语言编码器模型，能够将时尚图像分类为10个预定义的Fashion-MNIST类别，如T恤、裤子、连衣裙等。

模型特点

高精度分类

在Fashion-MNIST测试集上达到91.8%的准确率，部分类别如裤子和包的F1分数超过99%

基于SigLIP2架构

采用google/siglip2-base-patch16-224基础模型，具有改进的语义理解和定位能力

轻量级部署

支持通过Transformers库快速部署，兼容Gradio等交互式演示工具

模型能力

时尚图像分类

多类别识别

视觉特征提取

使用案例

电子商务

商品自动分类

为在线零售平台自动分类服装商品

优化商品搜索和推荐系统

库存管理

自动化时尚物品库存分类

提高库存管理效率

教育研究

AI教学示例

作为计算机视觉和机器学习课程的实践案例

🚀 Fashion-Mnist-SigLIP2

Fashion-Mnist-SigLIP2 是一个图像分类的视觉语言编码器模型，它基于 google/siglip2-base-patch16-224 进行微调，用于单标签分类任务。该模型旨在使用 SiglipForImageClassification 架构将图像分类到 Fashion-MNIST 类别中。

✨ 主要特性

基于预训练模型 google/siglip2-base-patch16-224 微调，用于时尚图像分类。
能够将图像准确分类到 10 个 Fashion-MNIST 类别中。

📦 安装指南

!pip install -q transformers torch pillow gradio

💻 使用示例

基础用法

import gradio as gr
from transformers import AutoImageProcessor
from transformers import SiglipForImageClassification
from transformers.image_utils import load_image
from PIL import Image
import torch

# 加载模型和处理器
model_name = "prithivMLmods/Fashion-Mnist-SigLIP2"
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)

def fashion_mnist_classification(image):
    """预测图像的时尚类别。"""
    image = Image.fromarray(image).convert("RGB")
    inputs = processor(images=image, return_tensors="pt")
    
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
        probs = torch.nn.functional.softmax(logits, dim=1).squeeze().tolist()
    
    labels = {
        "0": "T-shirt / top", "1": "Trouser", "2": "Pullover", "3": "Dress", "4": "Coat",
        "5": "Sandal", "6": "Shirt", "7": "Sneaker", "8": "Bag", "9": "Ankle boot"
    }
    predictions = {labels[str(i)]: round(probs[i], 3) for i in range(len(probs))}
    
    return predictions

# 创建 Gradio 界面
iface = gr.Interface(
    fn=fashion_mnist_classification,
    inputs=gr.Image(type="numpy"),
    outputs=gr.Label(label="Prediction Scores"),
    title="Fashion MNIST Classification Labels",
    description="上传一张图像，将其分类到 10 个 Fashion-MNIST 类别之一。"
)

# 启动应用
if __name__ == "__main__":
    iface.launch()

📚 详细文档

分类报告

Classification Report:
               precision    recall  f1-score   support

T-shirt / top     0.8142    0.9147    0.8615      6000
      Trouser     0.9935    0.9870    0.9902      6000
     Pullover     0.8901    0.8610    0.8753      6000
        Dress     0.9098    0.9300    0.9198      6000
         Coat     0.8636    0.8865    0.8749      6000
       Sandal     0.9857    0.9847    0.9852      6000
        Shirt     0.8076    0.6962    0.7478      6000
      Sneaker     0.9663    0.9695    0.9679      6000
          Bag     0.9779    0.9805    0.9792      6000
   Ankle boot     0.9698    0.9700    0.9699      6000

     accuracy                         0.9180     60000
    macro avg     0.9179    0.9180    0.9172     60000
 weighted avg     0.9179    0.9180    0.9172     60000

分类类别

该模型将图像分为以下 10 个类别：

类别 0: "T恤/上衣"
类别 1: "裤子"
类别 2: "套头衫"
类别 3: "连衣裙"
类别 4: "外套"
类别 5: "凉鞋"
类别 6: "衬衫"
类别 7: "运动鞋"
类别 8: "包"
类别 9: "短靴"

- visual selection.png

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features https://arxiv.org/pdf/2502.14786

🔧 技术细节

该模型基于 SiglipForImageClassification 架构，从 google/siglip2-base-patch16-224 微调而来，用于时尚图像分类任务。通过对输入图像进行处理，模型能够输出每个 Fashion-MNIST 类别的预测概率。

📄 许可证

本项目采用 Apache-2.0 许可证。

📋 信息表格

属性	详情
模型类型	图像分类视觉语言编码器模型
基础模型	google/siglip2-base-patch16-224
训练数据集	zalando-datasets/fashion_mnist
库名称	transformers
标签	fashion、mnist、siglip2
管道标签	image-classification