# 画像テキスト理解

Gemma 27B Chatml
Gemma 3はGoogleが開発した軽量で最先端のオープンソースのマルチモーダルモデルファミリーで、Geminiモデルを作成するための同じ研究と技術に基づいて構築されており、テキストと画像の入力をサポートし、テキスト出力を生成します。
画像生成テキスト Transformers
G
NewEden
1,425
0
Gemma 3 4b It Qat Autoawq
Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルで、Gemini技術に基づいて構築され、テキストと画像の入力をサポートし、テキスト出力を生成します。
画像生成テキスト Safetensors
G
gaunernst
503
1
Llama 4 Maverick 17B 128E
その他
Llama 4 MaverickはMetaが開発したマルチモーダルAIモデルで、混合エキスパートアーキテクチャを採用し、テキストと画像の理解をサポート、170億の活性化パラメータと4000億の総パラメータを有しています。
テキスト生成画像 Transformers 複数言語対応
L
meta-llama
3,261
69
Gemma 3 1b Pt Unsloth Bnb 4bit
Gemma 3はGoogleが発表した軽量オープンモデルシリーズで、マルチモーダル入力(テキストと画像)をサポートし、128Kの大きな文脈ウィンドウを持ち、質問応答、要約などの様々なタスクに適しています。
画像生成テキスト Transformers 英語
G
unsloth
4,481
3
Gemma 3 12b It GGUF
Gemma-3-12b-it-GGUFは、Googleのオリジナルモデルgoogle/gemma-3-12b-itをベースに構築された量子化モデルで、画像テキストからテキストへのタスクに適しています。
大規模言語モデル Transformers
G
gaianet
203
0
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instructを基にしたマルチモーダルモデルの量子化バージョンで、画像テキストからテキストタスクをサポートし、様々な量子化レベルに対応しています。
画像生成テキスト 英語
Q
XelotX
201
1
Razorback 12B V0.2
その他
Razorback 12B v0.2はPixtral 12BとUnslopNemo v3の利点を組み合わせたマルチモーダルモデルで、視覚理解と言語処理能力を備えています。
画像生成テキスト Transformers 複数言語対応
R
nintwentydo
17
3
Lava Phi
MIT
マイクロソフトPhi-1.5アーキテクチャを基にしたビジュアルランゲージモデル、CLIPと統合して画像処理能力を実現
画像生成テキスト Transformers 複数言語対応
L
sagar007
17
0
Glm Edge V 2b
その他
GLM-Edge-V-2BはPytorchフレームワークに基づく画像テキストからテキストへのモデルで、中国語処理をサポートしています。
画像生成テキスト
G
THUDM
23.43k
11
Florence 2 DocVQA
これはMicrosoftのFlorence-2モデルをDocmatixデータセット(データ量5%)で学習率1e-6で1日間微調整したバージョンです
テキスト生成画像 Transformers
F
HuggingFaceM4
3,096
60
Llava 1.6 Mistral 7b Gguf
Apache-2.0
LLaVAはオープンソースのマルチモーダルチャットボットで、マルチモーダル指示追従データでLLMをファインチューニングして訓練されています。このバージョンはGGUF量子化バージョンで、複数の量子化オプションを提供します。
テキスト生成画像
L
cjpais
9,652
106
Llava Phi2
MIT
Llava-Phi2はPhi2をベースにしたマルチモーダル実装で、視覚と言語処理能力を組み合わせ、画像テキストからテキストへのタスクに適しています。
画像生成テキスト Transformers 英語
L
RaviNaik
153
6
Mmalaya
Apache-2.0
MMAlayaは大規模言語モデルAlayaを基に開発されたマルチモーダルシステムで、大規模言語モデル、画像テキスト特徴エンコーダー、特徴変換モジュールの3つのコアコンポーネントを含みます。
画像生成テキスト Transformers
M
DataCanvas
31
1
Llava V1.5 13B AWQ
LLaVAはオープンソースのマルチモーダルチャットボットで、GPTが生成したマルチモーダル命令追従データを用いてLLaMA/Vicunaをファインチューニングしてトレーニングされています。
テキスト生成画像 Transformers
L
TheBloke
141
35
Bakllava 1
Apache-2.0
BakLLaVA-1はMistral 7Bモデルをベースに、LLaVA 1.5アーキテクチャで強化されたマルチモーダルモデルで、複数のベンチマークテストにおいてLlama 2 13Bの性能を上回っています。
テキスト生成画像 Transformers 英語
B
SkunkworksAI
152
380
Llava Pretrain Vicuna 7b V1.3
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを基にGPTが生成したマルチモーダル指示追従データでファインチューニングされています。
テキスト生成画像 Transformers
L
liuhaotian
54
1
Git Base Textvqa
MIT
microsoft/git-base-textvqaを基にtextvqaデータセットでファインチューニングした視覚質問応答モデルで、テキストを含む画像の質問応答タスクに優れています
大規模言語モデル Transformers その他
G
Hellraiser24
19
0
Mengzi Oscar Base Caption
Apache-2.0
中国語マルチモーダル事前学習モデル孟子-オスカーを基に、AIC-ICC中国語画像キャプションデータセットでファインチューニングされた中国語マルチモーダル画像キャプションモデル
画像生成テキスト Transformers 中国語
M
Langboat
23
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase