# 高解像度処理

Webssl Dino7b Full8b 378
80億の言語注釈なしウェブ画像で訓練された70億パラメータの視覚Transformerモデル。自己教師あり学習により優れた視覚表現能力を実現
画像分類 Transformers
W
facebook
68
0
Auramask Ensemble Poprocket
Gpl-3.0
このモデルは改良版vnetアーキテクチャを使用して画像から画像への処理を行い、敵対的処理、美的強化、品質向上などのタスクをサポートします
画像生成
A
logasja
15
0
Auramask Ensemble Moon
Gpl-3.0
このモデルは改良版vnetアーキテクチャを使用して2D画像処理を行い、画像間変換タスクに焦点を当てており、敵対的および美的最適化特性を備えています。
画像生成
A
logasja
17
0
C RADIOv2 G
その他
C-RADIOv2はNVIDIAが開発した視覚特徴抽出モデルで、複数のサイズバージョンを提供し、画像理解と高密度処理タスクに適しています。
Transformers
C
nvidia
648
11
C RADIOv2 B
その他
C-RADIOv2はNVIDIAが開発した視覚特徴抽出モデルで、複数のサイズバージョンを提供し、画像理解や高密度視覚タスクに適しています。
Transformers
C
nvidia
404
8
Aimv2 3b Patch14 448.apple Pt
AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、3Bパラメータ規模を持ち、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
35
0
Resnet50x64 Clip Gap.openai
Apache-2.0
ResNet50アーキテクチャに基づくCLIPモデルの画像エンコーダー、64倍の幅拡張を備え、グローバル平均プーリング(GAP)戦略を使用
画像分類 Transformers
R
timm
107
0
Resnet50x16 Clip Gap.openai
Apache-2.0
CLIPフレームワークに基づくResNet50x16バリアントモデル、画像特徴抽出に特化
画像分類 Transformers
R
timm
129
0
Vit Huge Patch14 Clip 224.dfn5b
その他
CLIPアーキテクチャに基づくViT-Huge画像エンコーダーで、AppleがリリースしたDFN5B-CLIPモデル。視覚特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
128
0
Vit So400m Patch14 Siglip Gap 896.pali Pt
Apache-2.0
SigLIP画像エンコーダーに基づく視覚モデルで、グローバル平均プーリングを採用し、PaliGemmaプロジェクトの一部です
テキスト生成画像 Transformers
V
timm
15
1
Vit So400m Patch14 Siglip Gap 384.webli
Apache-2.0
SigLIPベースの視覚Transformerモデル、グローバル平均プーリングで画像特徴を処理
画像分類 Transformers
V
timm
96
0
Vit Base Patch16 Siglip 512.webli
Apache-2.0
SigLIPアーキテクチャに基づく視覚Transformerモデル、画像エンコーダ部分のみを含み、オリジナルのアテンションプーリングメカニズムを採用
画像分類 Transformers
V
timm
702
0
Vit Base Patch16 Siglip 256.webli I18n
Apache-2.0
SigLIPベースのViT-B-16視覚Transformerモデル、画像エンコーダーのみを含み、オリジナルアテンションプーリングを採用
画像分類 Transformers
V
timm
16
0
Convnext Large Mlp.clip Laion2b Ft Soup 320
Apache-2.0
CLIPアーキテクチャに基づくConvNeXt-Large画像エンコーダー、LAION-2Bデータセットでファインチューニング済み、320x320解像度の画像特徴抽出に対応
画像分類 Transformers
C
timm
173
0
Mini InternVL2 1B DA DriveLM
MIT
Mini-InternVL2-DA-RSはリモートセンシング画像分野に最適化されたマルチモーダルモデルで、Mini-InternVLアーキテクチャを基に、ドメイン適応フレームワークで微調整され、リモートセンシング画像理解タスクで優れた性能を発揮します。
画像生成テキスト Transformers その他
M
OpenGVLab
61
1
Coreml DepthPro
DepthPro は単眼深度推定モデルで、単一の画像から深度を予測できます。
3Dビジョン
C
KeighBee
17
4
Timesformer Hr Finetuned K600
TimeSformer-HRは、高解像度ビデオに最適化され、Kinetics-600データセットでファインチューニングされたビデオ行動認識モデルです。
動画処理 Transformers
T
onnx-community
17
0
Dust3r ViTLarge BaseDecoder 512 Dpt
DUSt3Rは、画像から簡単に幾何学的3Dビジョンを実現するモデルで、単一または複数の画像から3Dシーンを再構築できます。
3Dビジョン
D
naver
46.93k
14
C RADIO
その他
NVIDIAが開発した視覚特徴抽出モデルで、画像埋め込みを生成し、画像分類などの下流タスクをサポートします。
Transformers
C
nvidia
398
14
Vit L 14 336
MIT
Vision Transformerアーキテクチャに基づく大規模視覚言語モデル、ゼロショット画像分類タスクをサポート
画像分類
V
asakhare
20
0
Artwork Scorer
Apache-2.0
このモデルはFacebookのConvNeXtV2アーキテクチャを基にしたファインチューニング版で、Pixivランキング画像のマルチラベル分類タスク向けに特別に訓練されています
画像分類 Transformers
A
Muinez
32
5
Aesthetic Shadow
美学シャドウは11億パラメータを持つ視覚Transformerモデルで、アニメ画像の品質評価のために設計されました。
画像分類 Transformers
A
shadowlilac
373
26
Segformer B4 City Satellite Segmentation 1024x1024
Openrail
SegFormerアーキテクチャに基づく衛星画像セグメンテーションモデル、都市領域分割タスク専用に設計
画像セグメンテーション Transformers
S
ratnaonline1
110
4
Eva02 Enormous Patch14 Clip 224.laion2b S4b B115k
MIT
EVA02アーキテクチャに基づく大規模視覚-言語モデル、ゼロショット画像分類タスクをサポート
テキスト生成画像
E
timm
130
1
Eva02 Large Patch14 Clip 336.merged2b S6b B61k
MIT
EVA02はCLIPアーキテクチャに基づく大規模な視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。
テキスト生成画像
E
timm
15.78k
0
Efficientnet B6
Apache-2.0
EfficientNetはモバイルフレンドリーな純粋な畳み込みモデルで、複合係数による深さ/幅/解像度の統一スケーリングを行い、ImageNet-1kデータセットで学習されています
画像分類 Transformers
E
google
167
0
Convnextv2 Huge.fcmae
ConvNeXt-V2に基づく自己教師あり特徴表現モデルで、全畳み込みマスク自己符号化器フレームワーク(FCMAE)を使用して事前学習されており、画像分類や特徴抽出タスクに適しています。
画像分類 Transformers
C
timm
52
0
Timesformer Hr Finetuned Ssv2
TimeSformerは時空間アテンションメカニズムに基づくビデオ分類モデルで、Something Something v2データセットでファインチューニングされています。
動画処理 Transformers
T
fcakyon
14
0
Timesformer Hr Finetuned K600
TimeSformerは時空間アテンション機構に基づくビデオ理解モデルで、高解像度バリアントはKinetics-600データセット向けに特別にファインチューニングされています。
動画処理 Transformers
T
fcakyon
22
0
Timesformer Hr Finetuned Ssv2
TimeSformerは空間-時間注意メカニズムに基づくビデオ理解モデルで、このバージョンはSomething Something v2データセットでファインチューニングされた高解像度バリアントです。
動画処理 Transformers
T
facebook
550
2
Timesformer Hr Finetuned K400
TimeSformerは、空間-時間アテンションメカニズムに基づくビデオ理解モデルで、Kinetics-400データセットで事前学習とファインチューニングが行われています。
動画処理 Transformers
T
facebook
178
2
Beit Base Finetuned Ade 640 640
Apache-2.0
BEiTは、ビジュアルTransformer(ViT)アーキテクチャに基づくモデルで、自己教師付き学習によりImageNet - 21kで事前学習され、ADE20kデータセットで微調整され、画像セマンティックセグメンテーションタスクに特化しています。
画像セグメンテーション Transformers
B
microsoft
1,645
11
Segformer B0 Finetuned Cityscapes 640 1280
その他
SegFormerはTransformerアーキテクチャに基づくセマンティックセグメンテーションモデルで、Cityscapesデータセットでファインチューニングされ、道路シーンのセグメンテーションタスクに適しています。
画像セグメンテーション Transformers
S
nvidia
41
0
Vit Large Patch16 224
Apache-2.0
Transformerアーキテクチャに基づく大規模画像分類モデルで、ImageNet - 21kとImageNet - 1kデータセットで事前学習と微調整を行っています。
画像分類
V
google
188.47k
30
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase