# ゼロショット転移

Cultureclip
CLIP-ViT-B/32をファインチューニングした視覚言語モデルで、画像-テキストマッチングタスクに適しています
テキスト生成画像 Transformers
C
lukahh
20
0
Openvision Vit So400m Patch14 384
Apache-2.0
OpenVisionは、完全にオープンでコスト効率の高い高度なビジョンエンコーダのファミリーで、マルチモーダル学習に使用されます。
マルチモーダル融合
O
UCSC-VLAA
238
0
Openvision Vit So400m Patch14 224
Apache-2.0
OpenVisionは完全オープンソースで高コストパフォーマンスな先進的な視覚エンコーダーファミリーで、マルチモーダル学習向けに設計されており、性能はOpenAI CLIPに匹敵またはそれを上回ります。
マルチモーダル融合 Transformers
O
UCSC-VLAA
41
0
Openvision Vit Base Patch16 160
Apache-2.0
OpenVisionは、マルチモーダル学習のための完全オープンソースでコスト効率の高い高度な視覚エンコーダーファミリーです。
マルチモーダル融合
O
UCSC-VLAA
15
0
Vica2 Init
Apache-2.0
ViCA2は動画理解と視覚空間認知タスクに特化したマルチモーダル視覚言語モデルです。
ビデオ生成テキスト Transformers 英語
V
nkkbr
30
0
Vica2 Stage2 Onevision Ft
Apache-2.0
ViCA2は70億パラメータ規模のマルチモーダル視覚言語モデルで、動画理解と視覚空間認知タスクに特化しています。
ビデオ生成テキスト Transformers 英語
V
nkkbr
63
0
Blip Custom Captioning
Bsd-3-clause
BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成などの視覚-言語タスクに優れています
画像生成テキスト
B
hiteshsatwani
78
0
Ipa Whisper Base
Apache-2.0
Whisper-baseをファインチューニングした多言語音声認識モデルで、国際音声記号(IPA)出力をサポート
音声認識 Safetensors 複数言語対応
I
neurlang
599
6
Vit So400m Patch16 Siglip 256.v2 Webli
Apache-2.0
SigLIP 2 ViTモデル、画像エンコーダ部分のみを含み、画像特徴抽出用、WebLIデータセットで学習。
テキスト生成画像 Transformers
V
timm
12.56k
0
Vit So400m Patch14 Siglip 224.v2 Webli
Apache-2.0
SigLIP 2アーキテクチャに基づく視覚Transformerモデルで、画像特徴抽出のために設計され、webliデータセットで事前学習されています。
画像分類 Transformers
V
timm
7,005
0
Vit Large Patch16 Siglip 384.v2 Webli
Apache-2.0
SigLIP 2アーキテクチャに基づく視覚Transformerモデル、画像特徴抽出のために設計され、webliデータセットで事前学習済み
テキスト生成画像 Transformers
V
timm
4,265
0
Vit Large Patch16 Siglip 256.v2 Webli
Apache-2.0
SigLIP 2アーキテクチャに基づく視覚Transformerモデルで、画像特徴抽出のために設計され、webliデータセットでトレーニングされました
画像分類 Transformers
V
timm
525
0
Vit Giantopt Patch16 Siglip 384.v2 Webli
Apache-2.0
SigLIP 2に基づくViT画像エンコーダー、timm向けに設計され、視覚言語タスクに適している
画像分類 Transformers
V
timm
160
0
Vit Base Patch16 Siglip Gap 256.v2 Webli
Apache-2.0
SigLIP 2に基づくViT画像エンコーダーで、グローバル平均プーリングを採用し、注意プーリングヘッドを削除、画像特徴抽出に適しています。
マルチモーダル融合 Transformers
V
timm
114
1
Vit Base Patch16 Siglip 384.v2 Webli
Apache-2.0
SigLIP 2ベースの視覚トランスフォーマーモデル、画像特徴抽出用に設計、webliデータセットで事前学習済み
テキスト生成画像 Transformers
V
timm
330
0
Vit Base Patch16 Siglip 224.v2 Webli
Apache-2.0
SigLIP 2に基づくViTモデルで、画像特徴抽出に特化し、webliデータセットで学習済み
テキスト生成画像 Transformers
V
timm
1,992
0
Blip Image Captioning Large
Bsd-3-clause
COCOデータセットで事前学習された視覚言語モデルで、正確な画像キャプション生成に優れています
画像生成テキスト
B
drgary
23
1
Snowflake Arctic Embed M V2.0 Cpu
Apache-2.0
Snowflake Arctic Embed M v2.0 は多言語文埋め込みモデルで、文類似度タスクに特化しており、50以上の言語をサポートしています。
テキスト埋め込み Transformers 複数言語対応
S
cnmoro
502
3
Aimv2 3b Patch14 336.apple Pt
AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
35
0
Vit Huge Patch14 Clip 224.dfn5b
その他
CLIPアーキテクチャに基づくViT-Huge画像エンコーダーで、AppleがリリースしたDFN5B-CLIPモデル。視覚特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
128
0
Convnext Large Mlp.clip Laion2b Ft Soup 320
Apache-2.0
CLIPアーキテクチャに基づくConvNeXt-Large画像エンコーダー、LAION-2Bデータセットでファインチューニング済み、320x320解像度の画像特徴抽出に対応
画像分類 Transformers
C
timm
173
0
Convnext Large Mlp.clip Laion2b Augreg
Apache-2.0
CLIPフレームワークに基づくConvNeXt-Large画像エンコーダー、LAION-2Bデータセットでトレーニング済み、視覚特徴抽出をサポート
画像分類 Transformers
C
timm
107
0
Vesselfm
その他
VesselFMは、任意の画像領域で汎用的な3D血管セグメンテーションを実現するための基礎モデルです。
画像セグメンテーション
V
bwittmann
153
4
Cogact Large
MIT
CogACTは視覚言語モデル(VLM)に基づく新しい高度な視覚言語動作(VLA)アーキテクチャで、ロボット操作のために設計されています。
マルチモーダル融合 Transformers 英語
C
CogACT
122
3
Cogact Base
MIT
CogACTは、ロボット操作タスクのための視覚言語モデルと専用動作モジュールを組み合わせた新しい視覚言語動作(VLA)アーキテクチャです。
マルチモーダル融合 Transformers 英語
C
CogACT
6,589
12
Aimv2 Large Patch14 Native Image Classification
MIT
AIMv2-Large-Patch14-Native は、元のAIMv2モデルを修正した画像分類モデルで、Hugging Face TransformersのAutoModelForImageClassificationクラスと互換性があります。
画像分類 Transformers
A
amaye15
15
2
Paligemma2 3b Pt 224
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2言語モデルとSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。
画像生成テキスト Transformers
P
google
30.51k
148
Paligemma2 3b Ft Docci 448
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。
画像生成テキスト Transformers
P
google
8,765
12
Sam2 Hiera Base Plus
Apache-2.0
SAM 2はFAIRが開発した画像とビデオのプロンプト可能な視覚セグメンテーションのための基盤モデルで、効率的なセグメンテーションをサポートします。
画像セグメンテーション
S
facebook
18.17k
6
Cogflorence 2.1 Large
MIT
このモデルはmicrosoft/Florence-2-largeのファインチューニング版で、Ejafa/ye-popデータセットの4万枚の画像サブセットでトレーニングされ、アノテーションはTHUDM/cogvlm2-llama3-chat-19Bによって生成されました。画像からテキストへのタスクに特化しています。
画像生成テキスト Transformers 複数言語対応
C
thwri
2,541
22
RADIO L
AM-RADIOはNVIDIA研究所が開発した視覚基盤モデルで、集約型アーキテクチャにより複数領域の統一表現を実現し、様々なコンピュータビジョンタスクに適用可能です。
画像セグメンテーション Transformers
R
nvidia
23.27k
8
RADIO B
RADIOはNVIDIA研究所が開発した視覚基盤モデルで、異なる領域の視覚情報を統一的に表現でき、様々な視覚タスクに適用可能です。
画像セグメンテーション Transformers
R
nvidia
999
3
E5 V
E5-Vはマルチモーダル大規模言語モデルに基づく汎用埋め込み手法で、テキストと画像の入力を処理し統一された埋め込み表現を生成できます。
マルチモーダルアライメント Transformers
E
royokong
5,619
22
Zcabnzh Bp
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成や視覚的質問応答などのタスクに優れており、革新的なデータフィルタリングメカニズムにより性能を向上させています
画像生成テキスト Transformers
Z
nanxiz
19
0
Cogflorence 2 Large Freeze
MIT
これはmicrosoft/Florence-2-largeモデルのファインチューニング版で、Ejafa/ye-popデータセットの38,000枚の画像サブセットでトレーニングされ、CogVLM2で生成されたアノテーションを使用し、画像からテキストへのタスクに焦点を当てています。
画像生成テキスト Transformers 複数言語対応
C
thwri
419
14
4M 21 B
その他
4Mはトークン化とマスキング技術によりマルチモーダル拡張を実現する'任意から任意へ'の基盤モデルトレーニングフレームワーク
マルチモーダル融合
4
EPFL-VILAB
324
6
Emotion LLaMA
Apache-2.0
これはApache-2.0ライセンスで公開されたモデルで、具体的な情報は現在不明です。
大規模言語モデル Transformers
E
ZebangCheng
213
4
Fashion Embedder
MIT
FashionCLIPはCLIPをベースにした視覚言語モデルで、ファッション分野に特化してファインチューニングされており、汎用的なファッション製品の特徴表現を生成できます。
テキスト生成画像 Transformers 英語
F
McClain
58
0
Chronos T5 Small
Apache-2.0
Chronos-T5は言語モデルアーキテクチャに基づく事前学習済み時系列予測モデルで、量子化とスケーリングにより時系列をトークン系列に変換して学習し、様々な時系列予測タスクに適用可能です。
気候モデル Transformers
C
autogluon
54.04k
5
Zoedepth Nyu Kitti
MIT
ZoeDepthはNYUとKITTIデータセットでファインチューニングされた深度推定モデルで、実際の測定単位で深度値を推定できます。
3Dビジョン Transformers
Z
Intel
20.32k
5
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase