# マルチモーダルモデル

Spaceom GGUF
Apache-2.0
SpaceOm-GGUFは、視覚質問応答タスクに特化したマルチモーダルモデルで、空間推論において優れた性能を発揮します。
テキスト生成画像 英語
S
mgonzs13
196
1
PP Chart2Table
Apache-2.0
PP-Chart2TableはPaddlePaddleチームによって開発されたマルチモーダルモデルで、中英語のグラフ解析に特化しており、グラフを効率的にデータテーブルに変換することができます。
画像生成テキスト 複数言語対応
P
PaddlePaddle
1,392
0
Gemma 3 4b It Qat GGUF
Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルを作成したのと同じ研究と技術に基づいています。このモデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成できます。
テキスト生成画像 英語
G
unsloth
2,629
2
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
このモデルはQwen2-VL-7B-Captioner-RelaxedをGGUF形式に変換したバージョンで、画像からテキストへのタスクに最適化されており、llama.cppやKoboldcppなどのツールで実行可能です。
画像生成テキスト 英語
Q
r3b31
321
1
Llm Jp Clip Vit Base Patch16
Apache-2.0
日本語CLIPモデル、OpenCLIPフレームワークで訓練され、ゼロショット画像分類タスクをサポート
テキスト生成画像 日本語
L
llm-jp
40
1
Vit GPT2 Image Captioning
ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対して自然言語の説明を生成できます。
画像生成テキスト Transformers
V
motheecreator
149
0
Vit GPT2 Image Captioning
ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対して自然言語の説明を生成できます。
画像生成テキスト Transformers
V
mo-thecreator
17
0
Florence 2 Large TableDetection
MIT
Florence-2モデルを微調整したマルチモーダルな表検出モデルで、画像内の表領域を正確に位置特定できます。
画像生成テキスト Transformers
F
ucsahin
1,993
18
Paligemma Longprompt V1 Safetensors
Gpl-3.0
実験的な視覚モデルで、キーワードタグと長文記述を融合して画像プロンプトを生成
画像生成テキスト Transformers
P
mnemic
38
1
Paligemma 3b Mix 448 Ft TableDetection
google/paligemma-3b-mix-448をファインチューニングしたマルチモーダル表検出モデルで、画像内の表領域を識別するために特化
画像生成テキスト Transformers
P
ucsahin
19
4
Paligemma Vqav2
このモデルは、google/paligemma-3b-pt-224をVQAv2データセットの一部でファインチューニングしたバージョンで、視覚的質問応答タスクに特化しています。
テキスト生成画像 Transformers
P
merve
168
13
Paligemma Rich Captions
Apache-2.0
PaliGemma-3bモデルをDocCIデータセットでファインチューニングした画像キャプション生成モデル。200-350文字の詳細な説明文を生成可能で、幻覚現象を低減
画像生成テキスト Transformers 英語
P
gokaygokay
66
9
Compare2score
MIT
Compare2Scoreは画像品質評価に使用されるモデルで、特定のアルゴリズムを通じて画像に品質スコアを付けます。
画像の拡張 Transformers
C
q-future
391
4
Chexagent 2 3b
CheXagentは胸部X線読影に特化した基礎モデルで、医療画像解析を支援することを目的としています。
画像生成テキスト Transformers その他
C
StanfordAIMI
28.72k
4
Vit Base Patch16 224 Turkish Gpt2 Medium
Apache-2.0
これはViTとトルコ語GPT-2に基づくビジュアルエンコーダ-デコーダモデルで、トルコ語の画像キャプションを生成するために使用されます。
画像生成テキスト Transformers その他
V
atasoglu
14
0
Vit Medium Patch16 Clip 224.tinyclip Yfcc15m
MIT
ViTアーキテクチャに基づくCLIPモデル、ゼロショット画像分類タスク用
画像分類
V
timm
144
0
Xrayclip Vit L 14 Laion2b S32b B82k
CheXagentは胸部X線画像の自動分析と解釈に特化した基礎モデルです。
画像生成テキスト Transformers
X
StanfordAIMI
975
0
Siglip Large Patch16 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習されたマルチモーダルモデルで、改良されたSigmoid損失関数を採用しており、ゼロショット画像分類や画像テキスト検索タスクに適しています。
画像生成テキスト Transformers
S
google
245.21k
6
Siglip Large Patch16 256
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数により性能を向上
画像生成テキスト Transformers
S
google
24.13k
12
Siglip Base Patch16 512
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚-言語モデルで、改良されたシグモイド損失関数を採用し、画像分類と画像テキスト検索タスクで優れた性能を発揮します。
テキスト生成画像 Transformers
S
google
237.79k
24
Chinese Clip Vit Large Patch14
中国語CLIPモデル、Vision Transformerアーキテクチャに基づき、画像とテキストのクロスモーダル理解と生成をサポート。
テキスト生成画像 Transformers
C
Xenova
14
0
Chartllama 13b
Apache-2.0
ChartLlamaはLLaVA-1.5アーキテクチャに基づくマルチモーダルモデルで、グラフ理解と分析タスクに特化しています。
大規模言語モデル Transformers 英語
C
listen2you002
144
19
Siglip Base Patch16 224
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたSigmoid損失関数を採用し、画像-テキストマッチングタスクを最適化
画像生成テキスト Transformers
S
google
250.28k
43
Blip Image Captioning Base Test Sagemaker Tops 3
Bsd-3-clause
このモデルはSalesforceのBLIP画像キャプション生成ベースモデルをSageMakerプラットフォームで微調整したバージョンで、主に画像キャプション生成タスクに使用されます。
画像生成テキスト Transformers
B
GHonem
13
0
Swin Aragpt2 Image Captioning V3
Swin TransformerとAraGPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対してテキスト記述を生成できます。
画像生成テキスト Transformers
S
AsmaMassad
18
0
Saved Model Git Base
MIT
microsoft/git-baseを画像フォルダデータセットでファインチューニングした視覚言語モデルで、主に画像キャプション生成タスクに使用されます
画像生成テキスト Transformers その他
S
holipori
13
0
Blip2 Flan T5 Xl Sharded
MIT
これはBLIP-2モデルのシャーディングバージョンで、Flan T5-xlを使用して画像からテキストへのタスク(画像キャプションや視覚的質問応答など)を実現します。シャーディング処理により、低メモリ環境でもロード可能です。
画像生成テキスト Transformers 英語
B
ethzanalytics
71
6
Image Caption
Apache-2.0
VisionEncoderDecoderアーキテクチャに基づく画像キャプション生成モデルで、入力画像を自然言語の説明に変換できます。
画像生成テキスト Transformers
I
jaimin
14
2
Clip Vit Large Patch14 Ko
MIT
知識蒸留を用いて訓練された韓国語CLIPモデルで、韓国語と英語のマルチモーダル理解をサポート
テキスト生成画像 Transformers 韓国語
C
Bingsu
4,537
15
Layoutlmv3 Finetuned Wildreceipt
LayoutLMv3-baseモデルをWildReceipt領収書データセットでファインチューンしたバージョンで、領収書のキー情報抽出タスクに使用されます
文字認識 Transformers
L
Theivaprakasham
118
3
Vitgpt2 Vizwiz
ViT-GPT2アーキテクチャに基づく視覚-言語モデルで、画像からテキストへの変換タスクに使用
画像生成テキスト Transformers
V
gagan3012
24
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase