🚀 視覺藝術作品分類器(vit-artworkclassifier)
本模型能夠識別任意輸入圖像的藝術風格,為藝術圖像分類提供了高效的解決方案。它基於預訓練模型進行微調,在特定數據集上取得了一定的評估結果,具有一定的實用價值。
🚀 快速開始
本模型是 google/vit-base-patch16-224-in21k 在 imagefolder
數據集上的微調版本。該數據集是 artbench - 10 數據集(https://www.kaggle.com/datasets/alexanderliao/artbench10)的子集,每個類別包含 1000 張圖像的訓練集和 100 張圖像的驗證集。
模型在評估集上取得了以下結果:
✨ 主要特性
- 圖像風格識別:可準確識別輸入圖像的藝術風格。
- 微調優化:基於預訓練模型微調,在特定數據集上有較好表現。
📚 詳細文檔
模型描述
你可以在以下鏈接找到該模型訓練項目的相關描述:https://medium.com/@oliverpj.schamp/training-and-evaluating-stable-diffusion-for-artwork-generation-b099d1f5b7a6
預期用途與限制
本模型僅包含 artbench - 10 數據集中的 9 個類別,不包含“ukiyo_e”類別,這是由於數據可用性和格式問題導致的。
訓練和評估數據
- 訓練數據:從 artbench - 10 中隨機選擇 1000 張圖像(每個類別)。
- 驗證數據:從 artbench - 10 中隨機選擇 100 張圖像(每個類別)。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:0.0001
- 訓練批次大小:32
- 評估批次大小:8
- 隨機種子:42
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 訓練輪數:4
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
準確率 |
1.5906 |
0.36 |
100 |
1.4709 |
0.4847 |
1.3395 |
0.72 |
200 |
1.3208 |
0.5074 |
1.1461 |
1.08 |
300 |
1.3363 |
0.5165 |
0.9593 |
1.44 |
400 |
1.1790 |
0.5846 |
0.8761 |
1.8 |
500 |
1.1252 |
0.5902 |
0.5922 |
2.16 |
600 |
1.1392 |
0.5948 |
0.4803 |
2.52 |
700 |
1.1560 |
0.5936 |
0.4454 |
2.88 |
800 |
1.1545 |
0.6118 |
0.2271 |
3.24 |
900 |
1.2284 |
0.6039 |
0.207 |
3.6 |
1000 |
1.2625 |
0.5959 |
0.1958 |
3.96 |
1100 |
1.2621 |
0.6005 |
框架版本
- Transformers 4.26.1
- Pytorch 1.13.1+cu117
- Datasets 2.9.0
- Tokenizers 0.13.2
💻 使用示例
基礎用法
def vit_classify(image):
vit = ViTForImageClassification.from_pretrained("oschamp/vit-artworkclassifier")
vit.eval()
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
vit.to(device)
model_name_or_path = 'google/vit-base-patch16-224-in21k'
feature_extractor = ViTFeatureExtractor.from_pretrained(model_name_or_path)
encoding = feature_extractor(images=image, return_tensors="pt")
encoding.keys()
pixel_values = encoding['pixel_values'].to(device)
outputs = vit(pixel_values)
logits = outputs.logits
prediction = logits.argmax(-1)
return prediction.item()
📄 許可證
本模型採用 Apache - 2.0 許可證。
屬性 |
詳情 |
模型類型 |
基於視覺變換器的圖像分類模型 |
訓練數據 |
artbench - 10 數據集的子集 |
評估指標 |
準確率 |
基礎模型 |
google/vit - base - patch16 - 224 - in21k |