# ビジョントランスフォーマー

Virtus
MIT
ビジョントランスフォーマーを基にした二値分類モデルで、ディープフェイク画像の検出に特化しており、精度は99.2%
画像分類 Transformers
V
agasta
970
1
Coco Instance Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。
画像セグメンテーション
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) に基づく画像セグメンテーションモデルを提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。
画像セグメンテーション PyTorch
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション PyTorch
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクで持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。
画像セグメンテーション
A
tue-mps
116
0
Coco Panoptic Eomt Large 640
MIT
このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクにおいて持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。
画像セグメンテーション
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
このモデルはVision Transformer (ViT)のアーキテクチャを再考することで、画像セグメンテーションタスクにおけるその可能性を示しています。
画像セグメンテーション PyTorch
C
tue-mps
90
0
Vitpose Plus Huge
Apache-2.0
ViTPose++はビジョントランスフォーマーを基盤とした人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APという優れた性能を達成しました。
姿勢推定 Transformers
V
usyd-community
14.49k
6
Vitpose Plus Large
Apache-2.0
ViTPose++はビジョントランスフォーマーに基づく人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成しました。
姿勢推定 Transformers
V
usyd-community
1,731
1
Vitpose Plus Small
Apache-2.0
ViTPose++はビジョントランスフォーマーを基盤とした人体姿勢推定モデルで、MS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。
姿勢推定 Transformers
V
usyd-community
30.02k
2
Vitpose Base Coco Aic Mpii
Apache-2.0
ViTPoseはビジョントランスフォーマーをベースとした人体姿勢推定モデルで、シンプルなアーキテクチャ設計によりMS COCOなどのベンチマークで優れた性能を発揮します。
姿勢推定 Transformers 英語
V
usyd-community
38
1
Vitpose Base
Apache-2.0
ビジョントランスフォーマーを基盤とした人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成
姿勢推定 Transformers 英語
V
usyd-community
761
9
Vitpose Base Simple
Apache-2.0
ViTPoseは標準的なビジョントランスフォーマーを基にした人体姿勢推定ベースラインモデルで、シンプルなアーキテクチャで高性能なキーポイント検出を実現
姿勢推定 Transformers 英語
V
danelcsb
20
1
Arabic Large Nougat
Gpl-3.0
アラビア語向けに設計されたエンドツーエンド構造化光学文字認識システムで、書籍ページ画像を構造化テキスト(Markdown形式)に変換できます
画像生成テキスト Transformers 複数言語対応
A
MohamedRashad
537
10
Hair Type Image Detection
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、顔画像から5種類のヘアスタイル(巻き毛、ドレッドロック、ツイスト、ストレート、ウェービー)を認識するために特別に設計されており、精度は93%に達します。
画像分類
H
dima806
143
2
Sapiens Depth 0.3b Bfloat16
Sapiensは3億枚の1024x1024解像度の人間画像で事前学習されたビジョントランスフォーマーシリーズモデルで、人間中心の視覚タスクに特化しています。
3Dビジョン 英語
S
facebook
22
0
Sapiens Seg 1b Bfloat16
Sapiensは3億枚の高解像度人間画像で事前学習されたビジョントランスフォーマーモデルで、人間中心の視覚タスクに特化
画像セグメンテーション 英語
S
facebook
42
0
Sapiens Seg 1b
Sapiensは3億枚の人間画像で事前学習されたビジョントランスフォーマーモデルで、人間中心のセグメンテーションタスクに特化し、1K高解像度推論をサポートします。
画像セグメンテーション 英語
S
facebook
146
4
Mast3r ViTLarge BaseDecoder 512 Catmlpdpt Metric
MASt3RはViTアーキテクチャに基づく画像から3Dへの変換モデルで、画像と3D空間のマッチングを実現
3Dビジョン
M
naver
116.60k
15
Skin Types Image Detection
Apache-2.0
Vision Transformer (ViT)アーキテクチャを使用した顔画像分類モデルで、乾燥肌、普通肌、脂性肌の3つの皮膚タイプを検出
画像分類 Transformers
S
dima806
776
11
Dpt Swinv2 Base 384
MIT
DPT (密な予測トランスフォーマー) モデルは140万枚の画像でトレーニングされ、単眼深度推定に使用されます。このモデルはSwinv2をバックボーンネットワークとして使用し、高精度な深度予測タスクに適しています。
3Dビジョン Transformers
D
Intel
182
0
Sign Language Classification V1
Apache-2.0
Google Vision Transformer (ViT)をファインチューニングした手話分類モデルで、精度は80.56%
画像分類 Transformers
S
joseluhf11
40
2
Dpt Dinov2 Base Kitti
Apache-2.0
DINOv2をバックボーンとして使用するDPTフレームワーク、深度推定タスク用
3Dビジョン Transformers
D
facebook
446
2
Dpt Dinov2 Small Nyu
Apache-2.0
DINOv2をバックボーンとして使用したDPTモデルで、深度推定タスクに用いられます。
3Dビジョン Transformers
D
facebook
23
2
Nsfw Image Detection
Apache-2.0
ViTアーキテクチャに基づくNSFW画像分類モデル。ImageNet-21kデータセットで事前学習し、80,000枚の画像でファインチューニングされ、通常コンテンツとNSFWコンテンツを区別します。
画像分類 Transformers
N
Falconsai
82.4M
588
Eva02 Base Patch14 224.mim In22k
MIT
EVA02ベーシック版視覚表現モデル、マスク画像モデリングによりImageNet-22kで事前学習済み、画像分類と特徴抽出タスクに適しています。
画像分類 Transformers
E
timm
2,834
6
Image Feature Extractor
これはBeitアーキテクチャに基づくビジョンモデルで、製品画像分類タスク向けに特別にファインチューニングされています。
画像分類 Transformers
I
abletobetable
26
1
Swinv2
Apache-2.0
SwinV2はSwin Transformerアーキテクチャに基づくビジョンモデルで、特定のタスクに適応するためにファインチューニングされています。
画像分類 Transformers
S
ivensamdh
17
0
Upernet Swin Tiny
MIT
UperNetはセマンティックセグメンテーションのフレームワークで、Swin Transformerをバックボーンネットワークとして採用し、ピクセルレベルのセマンティックラベル予測を実現できます。
画像セグメンテーション Transformers 英語
U
openmmlab
4,682
3
Vit Huge Patch14 224.orig In21k
Apache-2.0
Vision Transformer (ViT)アーキテクチャに基づく大規模画像特徴抽出モデルで、ImageNet-21kデータセットで事前学習済み
画像分類 Transformers
V
timm
3,214
2
Vit Base Patch16 224.dino
Apache-2.0
自己教師ありDINO手法で訓練されたVision Transformer(ViT)画像特徴モデルで、画像分類や特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
33.45k
5
Vit Base Patch16 224 In21k Finetuned Cifar10 Test
Apache-2.0
Google Vision Transformer (ViT)ベースモデルをCIFAR-10データセットで微調整したテスト版
画像分類 Transformers
V
minhhoque
30
0
Dpt Hybrid Midas
Apache-2.0
ビジョントランスフォーマー(ViT)に基づく単眼深度推定モデル、140万枚の画像でトレーニング
3Dビジョン Transformers
D
Intel
224.05k
94
Segformer B2 Clothes
MIT
ATRデータセットでファインチューニングされたSegFormerモデル、服装と人体セグメンテーション用
画像セグメンテーション Transformers
S
mattmdjaga
666.39k
410
Vivit B 16x2 Kinetics400
MIT
ViViTはビジョントランスフォーマー(ViT)をビデオ処理向けに拡張したもので、特にビデオ分類タスクに適しています。
動画処理 Transformers
V
google
56.94k
32
Vivit B 16x2
MIT
ViViTはビジョントランスフォーマー(ViT)をビデオ処理向けに拡張したもので、主にビデオ分類などの下流タスクに使用されます。
動画処理 Transformers
V
google
989
11
Mgp Str Base
MGP-STRは純粋なビジュアルシーンテキスト認識モデルで、マルチグレイン予測により効率的なOCRを実現します。
文字認識 Transformers
M
alibaba-damo
4,981
64
Vit Base Highways 2
Apache-2.0
google/vit-base-patch16-224-in21kをファインチューニングしたビジョントランスフォーマーモデル、未知のデータセットで70%の精度を達成
画像分類 Transformers
V
ogimgio
14
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase