Vit Finetuned Vanilla Cifar10 0
Apache-2.0
Vision Transformer (ViT)アーキテクチャを基にCIFAR-10データセットでファインチューニングされた画像分類モデル、精度99.2%達成
画像分類
Transformers

V
02shanky
68
1
Vitmodel Skincheck
MIT
これはビジョントランスフォーマーに基づくモデルで、顔の肌タイプを5つのカテゴリに分類します。
画像分類
Transformers 英語

V
belpin
61
1
Coco Instance Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。
画像セグメンテーション
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) に基づく画像セグメンテーションモデルを提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。
画像セグメンテーション
PyTorch
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
PyTorch
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクで持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。
画像セグメンテーション
A
tue-mps
116
0
Coco Panoptic Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして捉える新しい視点を提案し、画像セグメンテーションタスクにおける可能性を探求しています。
画像セグメンテーション
C
tue-mps
119
0
Coco Panoptic Eomt Large 640
MIT
このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクにおいて持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。
画像セグメンテーション
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
このモデルはVision Transformer (ViT)のアーキテクチャを再考することで、画像セグメンテーションタスクにおけるその可能性を示しています。
画像セグメンテーション
PyTorch
C
tue-mps
90
0
Vit Chest Xray
MIT
Vision Transformer (ViT)アーキテクチャに基づく微調整モデルで、胸部X線画像の分類に使用され、CheXpertデータセットでトレーニングされています。
画像分類
Transformers 英語

V
codewithdark
316
1
C RADIOv2 B
その他
C-RADIOv2はNVIDIAが開発した視覚特徴抽出モデルで、複数のサイズバージョンを提供し、画像理解や高密度視覚タスクに適しています。

C
nvidia
404
8
Vit Base Patch16 Clip 224.dfn2b
その他
CLIPアーキテクチャに基づくVision Transformerモデル、Apple社が公開したDFN2B-CLIP画像エンコーダーの重み
画像分類
Transformers

V
timm
444
0
Llm Jp Clip Vit Base Patch16
Apache-2.0
日本語CLIPモデル、OpenCLIPフレームワークで訓練され、ゼロショット画像分類タスクをサポート
テキスト生成画像 日本語
L
llm-jp
40
1
Fairface Age Image Detection
Apache-2.0
Vision Transformerアーキテクチャに基づく画像分類モデルで、ImageNet-21kデータセットで事前学習されており、多クラス画像分類タスクに適しています
画像分類
Transformers

F
dima806
76.6M
10
Plant Identification Vit
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャを基に微調整した植物識別モデルで、評価セットで80.96%の精度を達成
画像分類
Transformers

P
marwaALzaabi
37
1
Vit Base Patch16 Clip 224.laion400m E31
MIT
LAION-400Mデータセットで訓練されたVision Transformerモデル、ゼロショット画像分類タスクをサポート
画像分類
V
timm
1,469
0
Vit Base Patch32 Clip 224.laion2b E16
MIT
LAION-2Bデータセットで訓練されたVision Transformerモデルで、ゼロショット画像分類タスクをサポート
画像分類
V
timm
7,683
0
Vit Base Patch32 Clip 224.laion400m E32
MIT
LAION-400Mデータセットで訓練されたVision Transformerモデル、OpenCLIPとtimmのデュアルフレームワークに対応
画像分類
V
timm
5,957
0
Vit Facial Expression Recognition
ViTアーキテクチャに基づく顔面表情認識モデルで、imagefolderデータセットで微調整され、精度は91.77%に達しました
人の顔に関係がある
Transformers

V
Alpiyildo
581
1
Dust3r ViTLarge BaseDecoder 512 Dpt
DUSt3Rは、画像から簡単に幾何学的3Dビジョンを実現するモデルで、単一または複数の画像から3Dシーンを再構築できます。
3Dビジョン
D
naver
46.93k
14
Dust3r ViTLarge BaseDecoder 512 Linear
DUSt3Rは画像から3D幾何学モデルを生成するための深層学習モデルで、幾何学的3D視覚タスクを簡単に実現できます。
3Dビジョン
D
naver
313
0
Vit Base Violence Detection
Apache-2.0
Vision Transformer(ViT)アーキテクチャを最適化した暴力行為検出モデルで、画像を暴力シーンか非暴力シーンかに分類できます。
画像分類
Transformers 英語

V
jaranohaal
2,140
6
Dust3r ViTLarge BaseDecoder 224 Linear
DUSt3Rは、画像から簡単に幾何学的3Dビジョンを実現するモデルで、単一または複数の画像から3Dシーンを再構築できます。
3Dビジョン
D
naver
1,829
0
Cvlface Adaface Vit Base Kprpe Webface12m
MIT
キーポイント相対位置エンコーディングに基づく顔認識モデル、ViTアーキテクチャを採用しWebFace12Mデータセットで学習
人の顔に関係がある
Transformers 英語

C
minchul
122
1
Vit Facial Expression Recognition
ViTベースの顔表情認識モデルで、FER2013、MMI、AffectNetデータセットでファインチューニングされ、7つの基本感情を識別可能
人の顔に関係がある
Transformers

V
motheecreator
4,221
13
Finetuned Clothes
Apache-2.0
GoogleのViTモデルを微調整した衣料品分類モデル、7種類の衣料品カテゴリの画像分類をサポート
画像分類
Transformers

F
samokosik
50
2
AI VS REAL IMAGE DETECTION
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャを微調整した画像分類モデルで、AI生成画像と真正画像を区別するために使用されます
画像分類
Transformers

A
Hemg
259
2
Skin Cancer Image Classification
Apache-2.0
視覚変換器(ViT)ベースの皮膚癌画像分類モデル、7種類の皮膚病変タイプを識別可能
画像分類
Transformers

S
Anwarkh1
3,309
22
Vit Base Nsfw Detector
Apache-2.0
Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、画像がNSFW(不適切)コンテンツを含むかどうかを検出するために特別に設計されています。
画像分類
Transformers

V
AdamCodd
1.2M
47
Vogue Fashion Collection 15
Apache-2.0
Google Vision Transformer (ViT)をファインチューニングしたファッションコレクション分類モデルで、15のトップファッションブランドの服飾コレクションを識別できます。
画像分類
Transformers

V
tonyassi
38
6
Vitforimageclassification
Apache-2.0
このモデルはgoogle/vit-base-patch16-224-in21kをCIFAR10データセットでファインチューニングした画像分類モデルで、精度は96.78%です。
画像分類
Transformers

V
Andron00e
43
2
Deepfake Vs Real Image Detection
Apache-2.0
Vision Transformerアーキテクチャに基づく画像分類モデルで、本物の画像とAI生成の偽造画像を検出します。
画像分類
Transformers

D
dima806
129.66k
27
Phikon
その他
PhikonはiBOTでトレーニングされた組織病理学の自己教師あり学習モデルで、主に組織学的画像パッチから特徴を抽出するために使用されます。
画像分類
Transformers 英語

P
owkin
741.63k
30
Dinov2 Small
Apache-2.0
DINOv2手法でトレーニングされた小型視覚Transformerモデル、自己教師あり学習で画像特徴を抽出
画像分類
Transformers

D
facebook
5.0M
31
Organoids Prova Organoid
Apache-2.0
このモデルはGoogleのViT-base-patch16-224を画像フォルダデータセットでファインチューニングした画像分類モデルで、評価セットで85.76%の精度を達成しました。
画像分類
Transformers

O
gcicceri
25
1
Sam Vit Base
Apache-2.0
SAMは、点やボックスなどの入力プロンプトから高品質なオブジェクトマスクを生成できる視覚モデルで、ゼロショットセグメンテーションタスクをサポートします
画像セグメンテーション
Transformers その他

S
facebook
635.09k
137
Clasificacion Vit Model Manuel Chaves
Apache-2.0
google/vit-base-patch16-224-in21kをファインチューニングした画像分類モデルで、豆類データセットで97.74%の精度を達成
画像分類
Transformers

C
machves
15
0
Driver Drowsiness Detection
Apache-2.0
ViTアーキテクチャに基づく運転手疲労検出モデルで、UTA RLDDデータセットで微調整され、精度は97.5%に達します
画像分類
Transformers

D
chbh7051
131
2
- 1
- 2
- 3
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98