高精度圖像分類

# 高精度圖像分類

PE Core G14 448

感知編碼器（PE）是通過簡單視覺-語言學習訓練出的最先進的圖像與視頻理解編碼器，在多種視覺任務上均達到最先進性能。

文本生成圖像

Mambavision L3 256 21K

首個結合Mamba與Transformer優勢的計算機視覺混合模型，通過重構Mamba公式增強視覺特徵建模效率，在Mamba架構最後幾層引入自注意力模塊提升長程空間依賴建模能力。

Mambavision B 21K

首個融合曼巴(Mamba)與Transformer優勢的計算機視覺混合模型，通過重構曼巴公式增強視覺特徵建模效率，並在曼巴架構末端引入自注意力模塊提升長程空間依賴建模能力。

Centraasia ResNet 50

基於ResNet-50架構的預訓練模型，專門針對中亞食物圖像分類任務進行微調，支持34種中亞食物分類。

Transformers 英語

Smart Tv Hand Gestures Image Detection

基於Vision Transformer架構的智能電視手勢識別模型，能夠準確分類9種常見手勢。

基於Google Vision Transformer (ViT)架構的圖像分類模型，專門針對beans數據集進行微調

Ai Image Detector Dev Deploy

這是一個基於自動訓練的圖像分類模型，能夠識別多種常見物體類別

Cat Dog Classifier With Small Datasest

基於microsoft/resnet-50微調的貓狗圖像分類模型，在評估集上準確率達95%

Cat Dog Classifier

基於ResNet-50架構微調的圖像分類模型，專門用於區分貓和狗的圖像，準確率達96.88%。

Tomato Leaf Disease Classification Resnet50

基於ResNet-50微調的番茄葉病圖像分類模型，準確率達99.56%

Tomato Leaf Disease Classification Vit

基於Google Vision Transformer (ViT)架構微調的番茄葉片病害分類模型，在評估集上準確率達99.67%

Ai Image Detector Deploy

這是一個基於AutoTrain訓練的AI圖像分類模型，能夠準確識別和分類多種圖像內容。

Aimv2 3B Patch14 448

AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列，在多個視覺理解基準測試中表現優異。

Aimv2 1B Patch14 448

AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列，在多個視覺理解基準測試中表現優異。

Aimv2 Huge Patch14 448

AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列，在多個基準測試中表現優異。

Aimv2 Large Patch14 448

AIMv2是基於多模態自迴歸目標預訓練的視覺模型系列，在多個基準測試中表現優異

Aimv2 3B Patch14 336

AIMv2 是一個通過多模態自迴歸目標預訓練的視覺模型系列，在多個多模態理解基準測試中表現優異。

Aimv2 1B Patch14 336

AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列，在多項多模態理解基準測試中表現優異。

Aimv2 Huge Patch14 336

AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列，在多個視覺理解基準測試中表現優異。

Aimv2 Large Patch14 336

AIMv2是基於多模態自迴歸目標預訓練的視覺模型系列，在多項視覺任務中表現優異。

Aimv2 3B Patch14 224

AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列，在多項基準測試中表現優異

Aimv2 1B Patch14 224

AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列，在多項視覺任務中表現優異。

Aimv2 Huge Patch14 224

AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列，在多項基準測試中表現優異。

Aimv2 Large Patch14 224

AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列，在多項視覺任務中表現優異。

這是一個基於Vision Transformer (ViT)和BEiT架構的圖像分類模型，專門用於識別印度尼西亞蠟染圖案。

圖像分類其他

Mambavision L 1K

首個結合Mamba與Transformer優勢的計算機視覺混合模型，通過重新設計Mamba公式增強視覺特徵建模能力

UL Base Classification

該模型是基於Google的ViT-base-patch16-224在圖像文件夾數據集上微調的圖像分類模型，驗證集準確率達89.21%。

AI VS REAL IMAGE DETECTION

基於Google Vision Transformer (ViT)架構微調的圖像分類模型，用於區分AI生成圖像與真實圖像

Cat Vs Dog Classification

基於Google的ViT模型在cats_vs_dogs數據集上微調的圖像分類模型，用於區分貓和狗的圖像。

基於google/vit-base-patch16-224微調的視覺模型，在評估集上F1分數達到0.9931

Vitforimageclassification

該模型是基於google/vit-base-patch16-224-in21k在CIFAR10數據集上微調的圖像分類模型，準確率達96.78%。

Vit Finetuned Vanilla Cifar10 0

基於Vision Transformer (ViT)架構在CIFAR-10數據集上微調的圖像分類模型，準確率達99.2%

Vit Base Patch16 224 In21k Finetuned Moderation

基於Google Vision Transformer架構的圖像分類模型，專為內容審核任務微調，在測試集上達到90.43%準確率

Dogs Breed Classification Using Vision Transformers

這是一個用於圖像分類任務的模型，支持英文語言，採用開放許可。

Transformers 英語

Swin Tiny Patch4 Window7 224 Cifar10

基於Swin Transformer架構的微小模型，專為CIFAR-10圖像分類任務微調

Clasificacion Vit Model Manuel Chaves

基於google/vit-base-patch16-224-in21k微調的圖像分類模型，在豆類數據集上達到97.74%的準確率

Deit Tiny Patch16 224 Finetuned Main Gpu 20e Final

基於DeiT-tiny架構的輕量級圖像分類模型，在自定義圖像數據集上微調後達到98.56%的驗證準確率

這是一個由HuggingPics生成的圖像分類模型，能夠對多種圖像進行分類，如動物、鳥類和國旗等。

Swinv2 Chaoyang

這是一個基於ImageNet-1k數據集訓練的視覺圖像分類模型，能夠識別多種常見物體和場景。

Clip Vit Large Patch14 Finetuned Fruits 360 Vitlarge

基於CLIP ViT-Large模型在Fruits-360數據集上微調的高精度水果圖像分類模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase