# 画像特徴抽出

Openvision Vit Base Patch8 160
Apache-2.0
OpenVision-ViT-Tinyは完全オープンで高コストパフォーマンスな先進的な視覚エンコーダで、OpenVisionファミリーの一部であり、マルチモーダル学習に焦点を当てています。
画像分類 Transformers
O
UCSC-VLAA
26
0
Openvision Vit Small Patch8 384
Apache-2.0
OpenVisionは完全にオープンでコストパフォーマンスに優れた先進的なビジョンエンコーダーファミリーで、マルチモーダル学習に焦点を当てています。
マルチモーダル融合
O
UCSC-VLAA
21
0
Openvision Vit Small Patch16 224
Apache-2.0
OpenVisionは、完全にオープンでコストパフォーマンスに優れた先進的な視覚エンコーダファミリーで、マルチモーダル学習に焦点を当てています。
画像の拡張
O
UCSC-VLAA
17
0
Openvision Vit Tiny Patch16 160
Apache-2.0
OpenVisionは、完全にオープンでコストパフォーマンスに優れた先進的な視覚エンコーダーファミリーで、マルチモーダル学習に焦点を当てています。
マルチモーダル融合 Transformers
O
UCSC-VLAA
30
0
Aimv2 1b Patch14 224.apple Pt
AIM-v2はtimmライブラリベースの画像エンコーダモデルで、10億パラメータ規模を持ち、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
198
0
Sam2 Hiera Tiny.fb R896 2pt1
Apache-2.0
HieraDet画像エンコーダーに基づくSAM2モデルで、画像特徴抽出タスクに特化しています。
物体検出 Transformers
S
timm
37
0
Sam2 Hiera Small.fb R896
Apache-2.0
HieraDet画像エンコーダーに基づくSAM2モデルで、画像特徴抽出タスクに特化しています。
画像セグメンテーション Transformers
S
timm
142
0
Sam2 Hiera Base Plus.fb R896 2pt1
Apache-2.0
HieraDet画像エンコーダを基にしたSAM2モデルの重みで、画像特徴抽出タスクに特化
画像セグメンテーション Transformers
S
timm
148
0
Sam2 Hiera Base Plus.fb R896
Apache-2.0
HieraDet画像エンコーダーに基づくSAM2モデルで、画像特徴抽出タスクに特化しています。
画像セグメンテーション Transformers
S
timm
764
0
Resnet101 Clip Gap.openai
Apache-2.0
CLIPフレームワークに基づくResNet101画像エンコーダー、グローバル平均プーリング(GAP)による画像特徴抽出
画像分類 Transformers
R
timm
104
0
Ijepa Vith16 1k
I-JEPAは自己教師あり学習手法で、画像の一部の表現から同じ画像の他の部分の表現を予測し、事前定義された手動データ変換やピクセルレベルの詳細補完に依存しません。
画像分類 Transformers
I
facebook
153
0
Ijepa Vith14 22k
I-JEPAは自己教師あり学習手法で、画像の一部の表現から同じ画像の他の部分の表現を予測し、事前定義された手動データ変換やピクセルレベルの詳細補填に依存しません。
画像分類 Transformers
I
facebook
48
0
Mambavision T2 1K
その他
MambaとTransformerの利点を組み合わせた初のコンピュータビジョンハイブリッドモデルで、Mambaの式を再設計して視覚特徴モデリング能力を強化し、Mambaアーキテクチャにセルフアテンションモジュールを組み込むことで長距離空間依存関係のモデリングを向上させています。
画像分類 Transformers
M
nvidia
597
4
Sscd Copy Detection
Apache-2.0
SSCDは画像複製検出のための深層学習モデルで、画像特徴を抽出し類似度比較を行えます。
画像分類 Transformers
S
m3
48
1
Vit Large Patch16 224.orig In21k
Apache-2.0
Vision Transformer(ViT)ベースの画像分類モデルで、Google ResearchがJAXフレームワークでImageNet-21kで事前学習後、PyTorchに移植。特徴抽出やファインチューニングに適しています。
画像分類 Transformers
V
timm
584
2
Vit Base Patch16 224.orig In21k
Apache-2.0
Vision Transformerに基づく画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングに適しています
画像分類 Transformers
V
timm
23.07k
1
Eva02 Tiny Patch14 224.mim In22k
MIT
EVA02は視覚Transformerモデルで、マスク画像モデリングによりImageNet-22kで事前学習されており、画像分類や特徴抽出タスクに適しています。
画像分類 Transformers
E
timm
385
1
Eva02 Small Patch14 224.mim In22k
MIT
EVA02特徴/表現モデル、マスク画像モデリングによりImageNet-22kで事前学習され、画像分類と特徴抽出タスクに適しています。
画像分類 Transformers
E
timm
705
0
Eva02 Base Patch14 224.mim In22k
MIT
EVA02ベーシック版視覚表現モデル、マスク画像モデリングによりImageNet-22kで事前学習済み、画像分類と特徴抽出タスクに適しています。
画像分類 Transformers
E
timm
2,834
6
Face Discriminator 2
Apache-2.0
ResNet-50をファインチューニングした顔分類モデルで、評価データセットで94.16%の精度を達成
画像分類 Transformers
F
petrznel
23
0
Google Vit Base Patch16 224 Cartoon Face Recognition
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャを基にファインチューニングしたアニメ顔認識モデルで、画像分類タスクで優れた性能を発揮します
人の顔に関係がある Transformers
G
jayanta
62
2
Convnextv2 Nano.fcmae
ConvNeXt-V2自己教師あり特徴表現モデル、全畳み込みマスク自己符号化器フレームワーク(FCMAE)を使用した事前学習、画像分類と特徴抽出タスクに適しています。
画像分類 Transformers
C
timm
265
0
Vit Small Patch16 224.dino
Apache-2.0
視覚Transformer(ViT)ベースの画像特徴モデルで、自己教師ありDINO手法でトレーニングされ、画像分類や特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
70.62k
4
Vit Small Patch8 224.dino
Apache-2.0
視覚Transformer(ViT)ベースの自己教師あり画像特徴抽出モデル、DINO手法で学習
画像分類 Transformers
V
timm
8,904
2
Vit Large Patch32 224.orig In21k
Apache-2.0
Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、ImageNet-21kデータセットで事前学習されており、特徴抽出やファインチューニングのシナリオに適しています。
画像分類 Transformers
V
timm
771
0
Vit Base Patch16 224.dino
Apache-2.0
自己教師ありDINO手法で訓練されたVision Transformer(ViT)画像特徴モデルで、画像分類や特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
33.45k
5
Vit Base Patch8 224.dino
Apache-2.0
自己教師ありDINO手法で訓練された視覚Transformer(ViT)画像特徴モデルで、画像分類や特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
9,287
1
Resnet34 Sketch Classifier
ResNet-34アーキテクチャに基づくスケッチ分類器で、TU-Berlinデータセットでファインチューニングされており、スケッチ認識と分類タスクに適しています。
画像分類 Transformers
R
kmewhort
705
1
Dino Resnet 50
DINO自己教師あり学習手法で事前学習されたResNet-50モデル、視覚特徴抽出タスクに適しています
画像分類 Transformers
D
Ramos-Ramos
106
0
Vit Msn Base 4
Apache-2.0
この視覚TransformerモデルはMSN手法で事前学習されており、少数ショットシナリオで優れた性能を発揮し、画像分類などのタスクに適しています
画像分類 Transformers
V
facebook
62
1
Regnet Y 006
Apache-2.0
RegNetはニューラルアーキテクチャサーチによって設計された画像分類モデルで、imagenet-1kデータセットで学習されています。
画像分類 Transformers
R
facebook
18
0
Regnet X 040
Apache-2.0
imagenet-1kでトレーニングされたRegNetモデル、ニューラルアーキテクチャサーチによって設計された効率的な視覚モデル
画像分類 Transformers
R
facebook
69
1
Vit Base Patch32 224 In21k
Apache-2.0
このビジュアルトランスフォーマー(ViT)モデルは、ImageNet-21kデータセットで224x224解像度で事前学習されており、画像分類タスクに適しています。
画像分類
V
google
35.10k
19
Vit Huge Patch14 224 In21k
Apache-2.0
ImageNet-21kで事前学習されたビジュアルTransformerモデルで、超大サイズのアーキテクチャを採用し、画像分類などのビジュアルタスクに適しています。
画像分類
V
google
47.78k
20
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase