# 高精度画像理解

Llada V
LLaDA - Vは拡散モデルに基づくビジュアル言語モデルで、他の拡散型マルチモーダル大規模言語モデルを上回る性能を持っています。
テキスト生成画像 Safetensors
L
GSAI-ML
174
8
Internvl3 8B Bf16
その他
InternVL3-8B-bf16 はMLXフォーマット変換に基づく視覚言語モデルで、多言語の画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers その他
I
mlx-community
96
1
Sarashina2 Vision 14b
MIT
Sarashina2-Vision-14BはSB Intuitionsによって開発された日本の大規模視覚言語モデルで、Sarashina2-13BとQwen2-VL-7Bの画像エンコーダーを組み合わせており、複数のベンチマークテストで優れた性能を示しています。
画像生成テキスト Transformers 複数言語対応
S
sbintuitions
192
6
Convnext Xxlarge.clip Laion2b Soup
Apache-2.0
CLIPフレームワークに基づくConvNeXt-XXLarge画像エンコーダー、LAIONによってトレーニングされ、マルチモーダルタスクに適しています
画像分類 Transformers
C
timm
220
0
Resnet50x64 Clip.openai
MIT
OpenCLIPライブラリのResNet50x64アーキテクチャに基づくCLIPモデルで、ゼロショット画像分類タスクをサポートします。
画像分類
R
timm
622
0
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg
MIT
LAION-2BデータセットでトレーニングされたCLIP ConvNeXt-XXLargeモデルで、OpenCLIPフレームワークで実装されており、ViTアーキテクチャ以外で初めて>79%のImageNetゼロショット精度を達成したCLIPモデル
テキスト生成画像
C
laion
6,616
9
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup
MIT
LAION-2BデータセットでトレーニングされたCLIP ConvNeXt-XXLargeモデル。OpenCLIPフレームワークを使用し、非ViT画像タワーCLIPモデルとして初めて>79%のImageNet top-1ゼロショット精度を達成
テキスト生成画像
C
laion
9,412
22
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase