Virtus
MIT
ビジョントランスフォーマーを基にした二値分類モデルで、ディープフェイク画像の検出に特化しており、精度は99.2%
画像分類
Transformers

V
agasta
970
1
Coco Instance Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。
画像セグメンテーション
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) に基づく画像セグメンテーションモデルを提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。
画像セグメンテーション
PyTorch
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
PyTorch
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクで持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。
画像セグメンテーション
A
tue-mps
116
0
Coco Panoptic Eomt Large 640
MIT
このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクにおいて持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。
画像セグメンテーション
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
このモデルはVision Transformer (ViT)のアーキテクチャを再考することで、画像セグメンテーションタスクにおけるその可能性を示しています。
画像セグメンテーション
PyTorch
C
tue-mps
90
0
Vitpose Plus Huge
Apache-2.0
ViTPose++はビジョントランスフォーマーを基盤とした人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APという優れた性能を達成しました。
姿勢推定
Transformers

V
usyd-community
14.49k
6
Vitpose Plus Large
Apache-2.0
ViTPose++はビジョントランスフォーマーに基づく人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成しました。
姿勢推定
Transformers

V
usyd-community
1,731
1
Vitpose Plus Small
Apache-2.0
ViTPose++はビジョントランスフォーマーを基盤とした人体姿勢推定モデルで、MS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。
姿勢推定
Transformers

V
usyd-community
30.02k
2
Vitpose Base Coco Aic Mpii
Apache-2.0
ViTPoseはビジョントランスフォーマーをベースとした人体姿勢推定モデルで、シンプルなアーキテクチャ設計によりMS COCOなどのベンチマークで優れた性能を発揮します。
姿勢推定
Transformers 英語

V
usyd-community
38
1
Vitpose Base
Apache-2.0
ビジョントランスフォーマーを基盤とした人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成
姿勢推定
Transformers 英語

V
usyd-community
761
9
Vitpose Base Simple
Apache-2.0
ViTPoseは標準的なビジョントランスフォーマーを基にした人体姿勢推定ベースラインモデルで、シンプルなアーキテクチャで高性能なキーポイント検出を実現
姿勢推定
Transformers 英語

V
danelcsb
20
1
Arabic Large Nougat
Gpl-3.0
アラビア語向けに設計されたエンドツーエンド構造化光学文字認識システムで、書籍ページ画像を構造化テキスト(Markdown形式)に変換できます
画像生成テキスト
Transformers 複数言語対応

A
MohamedRashad
537
10
Hair Type Image Detection
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、顔画像から5種類のヘアスタイル(巻き毛、ドレッドロック、ツイスト、ストレート、ウェービー)を認識するために特別に設計されており、精度は93%に達します。
画像分類
H
dima806
143
2
Sapiens Depth 0.3b Bfloat16
Sapiensは3億枚の1024x1024解像度の人間画像で事前学習されたビジョントランスフォーマーシリーズモデルで、人間中心の視覚タスクに特化しています。
3Dビジョン 英語
S
facebook
22
0
Sapiens Seg 1b Bfloat16
Sapiensは3億枚の高解像度人間画像で事前学習されたビジョントランスフォーマーモデルで、人間中心の視覚タスクに特化
画像セグメンテーション 英語
S
facebook
42
0
Sapiens Seg 1b
Sapiensは3億枚の人間画像で事前学習されたビジョントランスフォーマーモデルで、人間中心のセグメンテーションタスクに特化し、1K高解像度推論をサポートします。
画像セグメンテーション 英語
S
facebook
146
4
Mast3r ViTLarge BaseDecoder 512 Catmlpdpt Metric
MASt3RはViTアーキテクチャに基づく画像から3Dへの変換モデルで、画像と3D空間のマッチングを実現
3Dビジョン
M
naver
116.60k
15
Skin Types Image Detection
Apache-2.0
Vision Transformer (ViT)アーキテクチャを使用した顔画像分類モデルで、乾燥肌、普通肌、脂性肌の3つの皮膚タイプを検出
画像分類
Transformers

S
dima806
776
11
Dpt Swinv2 Base 384
MIT
DPT (密な予測トランスフォーマー) モデルは140万枚の画像でトレーニングされ、単眼深度推定に使用されます。このモデルはSwinv2をバックボーンネットワークとして使用し、高精度な深度予測タスクに適しています。
3Dビジョン
Transformers

D
Intel
182
0
Sign Language Classification V1
Apache-2.0
Google Vision Transformer (ViT)をファインチューニングした手話分類モデルで、精度は80.56%
画像分類
Transformers

S
joseluhf11
40
2
Dpt Dinov2 Base Kitti
Apache-2.0
DINOv2をバックボーンとして使用するDPTフレームワーク、深度推定タスク用
3Dビジョン
Transformers

D
facebook
446
2
Dpt Dinov2 Small Nyu
Apache-2.0
DINOv2をバックボーンとして使用したDPTモデルで、深度推定タスクに用いられます。
3Dビジョン
Transformers

D
facebook
23
2
Nsfw Image Detection
Apache-2.0
ViTアーキテクチャに基づくNSFW画像分類モデル。ImageNet-21kデータセットで事前学習し、80,000枚の画像でファインチューニングされ、通常コンテンツとNSFWコンテンツを区別します。
画像分類
Transformers

N
Falconsai
82.4M
588
Eva02 Base Patch14 224.mim In22k
MIT
EVA02ベーシック版視覚表現モデル、マスク画像モデリングによりImageNet-22kで事前学習済み、画像分類と特徴抽出タスクに適しています。
画像分類
Transformers

E
timm
2,834
6
Image Feature Extractor
これはBeitアーキテクチャに基づくビジョンモデルで、製品画像分類タスク向けに特別にファインチューニングされています。
画像分類
Transformers

I
abletobetable
26
1
Swinv2
Apache-2.0
SwinV2はSwin Transformerアーキテクチャに基づくビジョンモデルで、特定のタスクに適応するためにファインチューニングされています。
画像分類
Transformers

S
ivensamdh
17
0
Upernet Swin Tiny
MIT
UperNetはセマンティックセグメンテーションのフレームワークで、Swin Transformerをバックボーンネットワークとして採用し、ピクセルレベルのセマンティックラベル予測を実現できます。
画像セグメンテーション
Transformers 英語

U
openmmlab
4,682
3
Vit Huge Patch14 224.orig In21k
Apache-2.0
Vision Transformer (ViT)アーキテクチャに基づく大規模画像特徴抽出モデルで、ImageNet-21kデータセットで事前学習済み
画像分類
Transformers

V
timm
3,214
2
Vit Base Patch16 224.dino
Apache-2.0
自己教師ありDINO手法で訓練されたVision Transformer(ViT)画像特徴モデルで、画像分類や特徴抽出タスクに適しています。
画像分類
Transformers

V
timm
33.45k
5
Vit Base Patch16 224 In21k Finetuned Cifar10 Test
Apache-2.0
Google Vision Transformer (ViT)ベースモデルをCIFAR-10データセットで微調整したテスト版
画像分類
Transformers

V
minhhoque
30
0
Dpt Hybrid Midas
Apache-2.0
ビジョントランスフォーマー(ViT)に基づく単眼深度推定モデル、140万枚の画像でトレーニング
3Dビジョン
Transformers

D
Intel
224.05k
94
Segformer B2 Clothes
MIT
ATRデータセットでファインチューニングされたSegFormerモデル、服装と人体セグメンテーション用
画像セグメンテーション
Transformers

S
mattmdjaga
666.39k
410
Vivit B 16x2 Kinetics400
MIT
ViViTはビジョントランスフォーマー(ViT)をビデオ処理向けに拡張したもので、特にビデオ分類タスクに適しています。
動画処理
Transformers

V
google
56.94k
32
Vivit B 16x2
MIT
ViViTはビジョントランスフォーマー(ViT)をビデオ処理向けに拡張したもので、主にビデオ分類などの下流タスクに使用されます。
動画処理
Transformers

V
google
989
11
Mgp Str Base
MGP-STRは純粋なビジュアルシーンテキスト認識モデルで、マルチグレイン予測により効率的なOCRを実現します。
文字認識
Transformers

M
alibaba-damo
4,981
64
Vit Base Highways 2
Apache-2.0
google/vit-base-patch16-224-in21kをファインチューニングしたビジョントランスフォーマーモデル、未知のデータセットで70%の精度を達成
画像分類
Transformers

V
ogimgio
14
0
- 1
- 2
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98