圖像分類

# 圖像分類

Vision Perceiver Learned

基於ImageNet預訓練的通用視覺感知器模型，採用學習型位置嵌入處理圖像輸入

Medai Resnet50 Brain

ResNet-50 是一個深度殘差網絡，由微軟研究院開發，廣泛用於圖像分類任務。

Cat Dog Root Me

一個基於PyTorch和HuggingPics構建的圖像分類模型，能夠準確區分貓和狗的圖片。

Light Gender Classifier

一個基於HuggingPics生成的輕量級圖像分類模型，用於性別分類任務。

Plant Identification Vit

基於Google Vision Transformer (ViT)架構微調的植物識別模型，在評估集上達到80.96%的準確率

Utkface Race Classifications

該模型是基於microsoft/resnet-50在未知數據集上微調的版本，主要用於圖像分類任務，在評估集上取得了84.86%的準確率。

Kat Tiny Patch16 224.vitft

KAT是一種採用分組有理科爾莫戈羅夫-阿諾德網絡（GR-KAN）替代傳統Transformer中通道混合器的新型視覺模型，在ImageNet-1k數據集上訓練。

開放剪輯是一個零樣本圖像分類模型，能夠在不進行微調的情況下對圖像進行分類。

UL Exterior Classification

基於Google的ViT-base-patch16-224模型微調而成的圖像分類模型，在評估集上準確率為68.97%

Plant Disease Detection Project

MobileNet V2是一種輕量級的卷積神經網絡，專為移動設備設計，在延遲、模型大小和準確性之間取得平衡。

Font Identifier

基於ResNet-18微調的字體識別模型，在測試集上準確率達78.1%

Font Identifier

基於ResNet18微調的字體識別模型，可識別48種標準字體，測試準確率達96.33%

Transformers 英語

Vit Base Patch16 224 In21k Face Recognition

本模型是基於Google的ViT架構在圖像文件夾數據集上微調的人臉識別模型，在評估集上取得了接近完美的準確率。

Birds Classifier EfficientNetB2

基於EfficientNet-B2微調的鳥類圖像分類器，可識別525種鳥類，準確率高達99%

Resnet18 Catdog Classifier

基於ResNet-18微調的貓狗圖像分類模型，在Kaggle貓狗數據集上訓練，準確率達99.29%

Transformers 英語

Dinov2 Small Imagenet1k 1 Layer

基於DINOv2方法訓練的小型視覺Transformer模型，適用於圖像特徵提取和分類任務

Organoids Prova Organoid

該模型是基於Google的ViT-base-patch16-224在圖像文件夾數據集上微調的圖像分類模型，在評估集上取得了85.76%的準確率。

基於HuggingPics生成的圖像分類模型，能夠識別不同品種的狗

金字塔視覺變換器（PVT）是一種基於變換器架構的視覺模型，專為圖像分類任務設計。

基於google/vit-base-patch16-224微調的視覺模型，適用於圖像分類任務

基於google/vit-base-patch16-224微調的視覺Transformer模型，適用於圖像分類任務

Vit Base Letter

基於Google的ViT基礎模型在字母識別數據集上微調的圖像分類模型，準確率達98.81%

Transformers 英語

基於Google的ViT模型在Diatome數據集上微調的視覺分類模型，準確率達94.29%

Vit Base Aiornot

基於google/vit-base-patch16-224微調的視覺模型，具體用途未明確說明

Face Discriminator

基於微軟ResNet-50微調的人臉分類模型，在驗證集上達到99.84%的準確率

Microsoft Swin Tiny Patch4 Window7 224 Ov

這是由microsoft/swin-tiny-patch4-window7-224模型轉換而來的OpenVINO版本，用於加速圖像分類推理。

Transformers 英語

Doge 是一個基於 HuggingPics 生成的圖像分類模型，專門用於識別 Doge 相關的圖像。

Swin Tiny Patch4 Window7 224 Isl Finetuned

基於microsoft/swin-tiny-patch4-window7-224微調的視覺模型，在評估集上達到100%準確率

Fl Image Category Multi Label

這是一個基於Google的ViT模型進行微調的圖像分類模型，在fl_image_category_ds數據集上訓練，準確率達到66.22%。

Vit Artworkclassifier

基於ViT架構的藝術風格分類模型，可識別輸入圖像的藝術風格類別

Fl Image Category

基於microsoft/resnet-18微調的圖像分類模型，在fl_image_category_ds數據集上訓練

基於預處理1024配置數據集微調的ViT模型，用於圖像分類任務

基於Google的ViT模型微調的面部表情識別模型，在FER2013數據集上訓練，準確率達70.22%。

Vit Base Patch16 224 Finetuned Algae Wirs

該模型是基於Google的ViT模型在藻類數據集上微調的視覺分類模型，主要用於藻類圖像分類任務。

基於microsoft/resnet-50微調的圖像分類模型，在評估集上準確率達到64.1%

基於google/vit-base-patch16-224微調的視覺分類模型，用於識別第一世代寶可夢

一個基於PyTorch和HuggingPics的簡單圖像分類模型，用於判斷圖像中的人物是否禿頭。

Yolo V8 Fog Or Smog Classification

基於YOLOv8的圖像分類模型，用於識別霧和煙霧場景。

基於ViT架構的視覺Transformer模型，用於性別和年齡分類任務

Beit Base Patch16 224 Pt22k Ft22k Finetuned FER2013 7e 05 Finetuned SFEW 7e 05

基於BEiT架構的圖像分類模型，在FER2013數據集上微調，用於面部表情識別

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase