# 軽量VLM

Smolvlm 500M Anime Caption V0.2
Apache-2.0
アニメスタイルの画像記述に特化した視覚言語モデル、SmolVLM-500M-Baseをファインチューニング
画像生成テキスト Safetensors 英語
S
Andres77872
17
0
Smolvlm 500M Anime Caption V0.1
Apache-2.0
アニメスタイル画像の記述に特化した視覚言語モデル。SmolVLM-500M-Baseをファインチューニングし、大規模言語モデルで生成された18万組の合成画像/字幕ペアでトレーニング。
画像生成テキスト 英語
S
Andres77872
61
0
Granite Vision 3.2 2b
Apache-2.0
granite-vision-3.2-2bは、視覚的文書理解のために設計されたコンパクトで効率的な視覚言語モデルで、表、チャート、インフォグラフィックなどから自動的に内容を抽出できます。
画像生成テキスト Transformers 英語
G
unsloth
43
1
Paligemma 3b Ft Science Qa 448
PaliGemmaはGoogleが開発した30億パラメータの軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力からテキスト出力を生成できます。
画像生成テキスト Transformers
P
google
15
2
Paligemma 3b Pt 448
PaliGemmaはSigLIP視覚モデルとGemma言語モデルを基盤とした軽量で多機能な視覚言語モデルで、多言語の画像テキスト相互作用タスクをサポートします。
画像生成テキスト Transformers
P
google
2,708
29
Paligemma 3b Mix 448
PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を受け取りテキストを生成します
画像生成テキスト Transformers
P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、多言語の画像テキスト理解と生成をサポートします。
画像生成テキスト Transformers
P
google
519
9
Paligemma 3b Ft Refcoco Seg 896
PaliGemmaはGoogleが開発した軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基盤としており、多言語テキスト生成と視覚理解タスクをサポートします。
画像生成テキスト Transformers
P
google
20
6
Paligemma 3b Mix 224
PaliGemmaは多機能で軽量な視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力をサポートし、テキスト結果を出力します。
テキスト生成画像 Transformers
P
google
143.03k
75
Paligemma 3b Pt 224
PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を同時に処理しテキスト出力を生成できます。
画像生成テキスト Transformers
P
google
38.40k
318
Paligemma 3b Ft Vqav2 448
PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、画像理解とテキスト生成能力を組み合わせ、多言語タスクをサポートします。
テキスト生成画像 Transformers
P
google
121
17
Paligemma 3b Ft Ocrvqa 448
PaliGemmaはGoogleが開発した多機能軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキスト入力をサポートし、テキスト結果を出力します。
画像生成テキスト Transformers
P
google
365
6
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase