V

Vit Base Patch16 224 Futurama Image Multilabel Clf

由DunnBC22開發
基於Google Vision Transformer微調的多標籤圖像分類模型,專門用於識別動畫劇集《飛出個未來》截圖中的內容。
下載量 19
發布時間 : 2/16/2023

模型概述

該模型是基於google/vit-base-patch16-224微調後的版本,用於對《飛出個未來》動畫截圖進行多標籤分類。在評估集上表現出色,F1值達到0.9818。

模型特點

高精度多標籤分類
在《飛出個未來》截圖數據集上實現了0.9818的F1值和0.9672的準確率。
基於ViT架構
採用Vision Transformer基礎架構,具有強大的圖像特徵提取能力。
精細調優
經過8輪精細調優,訓練損失從0.2456降至0.0005。

模型能力

圖像分類
多標籤識別
動畫場景分析

使用案例

媒體內容分析
動畫場景分類
自動識別《飛出個未來》動畫中的場景內容
準確率達到96.72%
內容審核
識別動畫中的特定內容或角色
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase