Coco Panoptic Eomt Giant 640
MIT
この論文が提案するモデルは、Vision Transformer (ViT)が画像セグメンテーションタスクで持つ潜在能力を明らかにしています。
画像セグメンテーション
C
tue-mps
92
0
Ade20k Semantic Eomt Large 512
MIT
このモデルは論文『あなたのViTは実際には画像セグメンテーションモデル』に基づいて開発され、画像セグメンテーションタスクのための視覚Transformerモデルです。
画像セグメンテーション
A
tue-mps
108
0
Cityscapes Semantic Eomt Large 1024
MIT
このモデルはVision Transformer (ViT)が画像分割タスクで持つ可能性を明らかにし、特定の方法でViTを効率的な画像分割モデルに変換します。
画像セグメンテーション
PyTorch
C
tue-mps
85
0
Vitpose Plus Base
Apache-2.0
ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、シンプルな設計によりMS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。
姿勢推定
Transformers 英語

V
usyd-community
22.26k
10
Vitpose Base Simple
Apache-2.0
ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの精度を達成し、モデルの簡潔さ、スケーラビリティ、トレーニングの柔軟性などの利点があります
姿勢推定
Transformers 英語

V
usyd-community
51.40k
20
Aimv2 3b Patch14 448.apple Pt
AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、3Bパラメータ規模を持ち、画像特徴抽出タスクに適しています。
画像分類
Transformers

A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、画像特徴抽出タスクに適しています。
画像分類
Transformers

A
timm
35
0
Dinov2 With Registers Giant
Apache-2.0
これはDINOv2ベースの視覚Transformerモデルで、レジスタトークンを追加することでアテンション機構を改良し、教師なし画像特徴抽出に使用されます。
画像分類
Transformers

D
facebook
9,811
6
Vit Base Patch16 Clip 224.metaclip 400m
MetaCLIP-400Mデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート
画像分類
V
timm
1,206
1
Sapiens Depth 0.3b
智人(Sapiens)は30億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスクに特化しています。
3Dビジョン 英語
S
facebook
24
0
Sapiens Depth 0.6b
Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。
3Dビジョン 英語
S
facebook
19
1
Sapiens Pretrain 0.6b
Sapiensは3億枚の1024×1024解像度人体画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスクに優れています。
画像分類 英語
S
facebook
13
0
Sapiens Seg 0.6b Torchscript
Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。
画像セグメンテーション 英語
S
facebook
25
0
Indian Sign Language Classification
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャを基にファインチューニングしたインド手話画像分類モデルで、精度は99.05%
画像分類
Transformers

I
Hemg
167
5
75 Butterfly Types Image Detection
Apache-2.0
Vision Transformerアーキテクチャに基づく蝶画像分類モデル。75種の蝶を識別可能で、精度は96.74%
画像分類
Transformers

7
dima806
27
2
Aesthetic Shadow
美学シャドウは11億パラメータを持つ視覚Transformerモデルで、アニメ画像の品質評価のために設計されました。
画像分類
Transformers

A
shadowlilac
373
26
Eva02 Large Patch14 224.mim M38m
MIT
EVA02特徴/表現モデル、マスク画像モデリングによりMerged-38Mデータセットで事前学習済み、画像分類と特徴抽出タスクに適しています。
画像分類
Transformers

E
timm
571
0
My Food Classifier
Apache-2.0
google/vit-base-patch16-224-in21kをファインチューニングした食品分類モデルで、評価データセットで優れた性能を発揮
画像分類
Transformers

M
MariaK
25
0
Efficientformer L1 300
Apache-2.0
EfficientFormer-L1はSnap Researchが開発した視覚Transformerモデルで、モバイルデバイス向けに最適化されており、高性能を維持しながら極めて低い遅延を実現します。
画像分類 英語
E
snap-research
513
3
Vit Msn Large 7
Apache-2.0
この視覚TransformerモデルはMSN手法で事前学習されており、少数ショットシナリオで優れた性能を発揮し、画像分類などのタスクに適しています
画像分類
Transformers

V
facebook
67
2
Vit Msn Base 4
Apache-2.0
この視覚TransformerモデルはMSN手法で事前学習されており、少数ショットシナリオで優れた性能を発揮し、画像分類などのタスクに適しています
画像分類
Transformers

V
facebook
62
1
Vit Msn Large
Apache-2.0
MSN手法で事前学習された視覚Transformerモデルで、少数ショットシナリオで優れた性能を発揮
画像分類
Transformers

V
facebook
48
1
Vit Msn Small
Apache-2.0
この視覚TransformerモデルはMSN手法で事前学習されており、少数ショット学習シナリオに適しており、特に画像分類タスクに最適です。
画像分類
Transformers

V
facebook
3,755
1
Vit Base Patch16 384 Wi5
Apache-2.0
このモデルはgoogle/vit-base-patch16-384をファインチューニングした視覚Transformerモデルで、主に画像分類タスクに使用されます。
画像分類
Transformers

V
Imene
21
0
Swinv2 Large Patch4 Window12 192 22k
Apache-2.0
Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現する視覚Transformerモデルです。
画像分類
Transformers

S
microsoft
3,816
10
Yolos Small
Apache-2.0
視覚Transformer(ViT)ベースの物体検出モデルで、DETR損失関数を使用して訓練され、COCOデータセットで優れた性能を発揮します。
物体検出
Transformers

Y
hustvl
154.46k
63
Deit Base Distilled Patch16 384
Apache-2.0
蒸留版視覚Transformerモデル、最初に224x224解像度で事前学習し、その後384x384解像度でImageNet-1k上でファインチューニング、教師モデルから蒸留トークンを通じて学習。
画像分類
Transformers

D
facebook
1,824
5
Deit FaceMask Finetuned
Apache-2.0
Face-Mask18Kデータセットで訓練された蒸留型視覚Transformerモデル、効率的なマスク検出用
画像分類
Transformers

D
AkshatSurolia
27
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98