🚀 Fashion-Mnist-SigLIP2
Fashion-Mnist-SigLIP2 是一个图像分类的视觉语言编码器模型,它基于 google/siglip2-base-patch16-224 进行微调,用于单标签分类任务。该模型旨在使用 SiglipForImageClassification 架构将图像分类到 Fashion-MNIST 类别中。

✨ 主要特性
- 基于预训练模型 google/siglip2-base-patch16-224 微调,用于时尚图像分类。
- 能够将图像准确分类到 10 个 Fashion-MNIST 类别中。
📦 安装指南
!pip install -q transformers torch pillow gradio
💻 使用示例
基础用法
import gradio as gr
from transformers import AutoImageProcessor
from transformers import SiglipForImageClassification
from transformers.image_utils import load_image
from PIL import Image
import torch
model_name = "prithivMLmods/Fashion-Mnist-SigLIP2"
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)
def fashion_mnist_classification(image):
"""预测图像的时尚类别。"""
image = Image.fromarray(image).convert("RGB")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
probs = torch.nn.functional.softmax(logits, dim=1).squeeze().tolist()
labels = {
"0": "T-shirt / top", "1": "Trouser", "2": "Pullover", "3": "Dress", "4": "Coat",
"5": "Sandal", "6": "Shirt", "7": "Sneaker", "8": "Bag", "9": "Ankle boot"
}
predictions = {labels[str(i)]: round(probs[i], 3) for i in range(len(probs))}
return predictions
iface = gr.Interface(
fn=fashion_mnist_classification,
inputs=gr.Image(type="numpy"),
outputs=gr.Label(label="Prediction Scores"),
title="Fashion MNIST Classification Labels",
description="上传一张图像,将其分类到 10 个 Fashion-MNIST 类别之一。"
)
if __name__ == "__main__":
iface.launch()
📚 详细文档
分类报告
Classification Report:
precision recall f1-score support
T-shirt / top 0.8142 0.9147 0.8615 6000
Trouser 0.9935 0.9870 0.9902 6000
Pullover 0.8901 0.8610 0.8753 6000
Dress 0.9098 0.9300 0.9198 6000
Coat 0.8636 0.8865 0.8749 6000
Sandal 0.9857 0.9847 0.9852 6000
Shirt 0.8076 0.6962 0.7478 6000
Sneaker 0.9663 0.9695 0.9679 6000
Bag 0.9779 0.9805 0.9792 6000
Ankle boot 0.9698 0.9700 0.9699 6000
accuracy 0.9180 60000
macro avg 0.9179 0.9180 0.9172 60000
weighted avg 0.9179 0.9180 0.9172 60000
分类类别
该模型将图像分为以下 10 个类别:
- 类别 0: "T恤/上衣"
- 类别 1: "裤子"
- 类别 2: "套头衫"
- 类别 3: "连衣裙"
- 类别 4: "外套"
- 类别 5: "凉鞋"
- 类别 6: "衬衫"
- 类别 7: "运动鞋"
- 类别 8: "包"
- 类别 9: "短靴"

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features https://arxiv.org/pdf/2502.14786

🔧 技术细节
该模型基于 SiglipForImageClassification 架构,从 google/siglip2-base-patch16-224 微调而来,用于时尚图像分类任务。通过对输入图像进行处理,模型能够输出每个 Fashion-MNIST 类别的预测概率。
📄 许可证
本项目采用 Apache-2.0 许可证。
📋 信息表格
属性 |
详情 |
模型类型 |
图像分类视觉语言编码器模型 |
基础模型 |
google/siglip2-base-patch16-224 |
训练数据集 |
zalando-datasets/fashion_mnist |
库名称 |
transformers |
标签 |
fashion、mnist、siglip2 |
管道标签 |
image-classification |
📖 预期用途
Fashion-Mnist-SigLIP2 模型专为时尚图像分类而设计,它有助于将服装和鞋类物品分类到预定义的 Fashion-MNIST 类别中。潜在的使用场景包括:
- 时尚识别:将时尚图像分类为常见类别,如衬衫、运动鞋和连衣裙。
- 电子商务应用:协助在线零售商组织和标记服装物品,以实现更好的搜索和推荐。
- 自动化时尚分类:帮助自动化库存管理系统对时尚物品进行分类。
- 教育目的:支持基于视觉的时尚分类模型的人工智能和机器学习研究。