# 軽量マルチモーダル

Smolvlm Instruct GGUF
Apache-2.0
SmolVLMはコンパクトなオープンソースのマルチモーダルモデルで、画像とテキストの入力を受け取り、テキスト出力を生成することができます。効率性を重視して設計されており、デバイス端のアプリケーションに適しています。
画像生成テキスト Transformers 英語
S
Mungert
1,023
2
Hyperclovax SEED Vision Instruct 3B
その他
HyperCLOVAX-SEED-Vision-Instruct-3BはNAVERが開発した軽量マルチモーダルモデルで、画像・テキスト理解とテキスト生成能力を備え、特に韓国語処理能力が最適化されています。
テキスト生成画像 Transformers
H
naver-hyperclovax
160.75k
170
Barcenas 4b
google/gemma-3-4b-itモデルをベースに訓練されたマルチモーダルモデルで、数学、プログラミング、科学、パズル解決分野の高品質データ処理に特化しています。
画像生成テキスト Transformers 英語
B
Danielbrdz
15
2
Heron NVILA Lite 1B
Apache-2.0
NVILA-Liteアーキテクチャでトレーニングされた日本語視覚言語モデル、日本語と英語の画像テキストインタラクションをサポート
画像生成テキスト Safetensors 複数言語対応
H
turing-motors
460
2
Smolvlm2 256M Video Instruct Mlx
Apache-2.0
これはMLXフレームワークに基づいて変換された動画テキストからテキストへのモデルで、動画理解とコマンド追従タスクに適しています。
画像生成テキスト Transformers 英語
S
mlx-community
591
7
Smolvlm2 500M Video Instruct
Apache-2.0
軽量マルチモーダルモデルで、動画コンテンツ分析のために設計されており、動画、画像、テキスト入力を処理してテキスト出力を生成できます。
画像生成テキスト Transformers 英語
S
HuggingFaceTB
17.89k
56
Smolvlm2 256M Video Instruct
Apache-2.0
SmolVLM2-256M-Videoは軽量マルチモーダルモデルで、動画コンテンツ分析のために設計されており、動画、画像、テキスト入力を処理しテキスト出力を生成できます。
画像生成テキスト Transformers 英語
S
HuggingFaceTB
22.16k
53
Smolvlm2 2.2B Instruct
Apache-2.0
SmolVLM2-2.2Bは、動画コンテンツ分析のために設計された軽量マルチモーダルモデルで、動画、画像、テキスト入力を処理しテキスト出力を生成できます。
画像生成テキスト Transformers 英語
S
HuggingFaceTB
62.56k
164
T Lite It 1.0 Quants GGUF
T-lite-it-1.0 はロシア語と英語をサポートする画像からテキストへの変換モデルで、GGUF形式に変換されています。
大規模言語モデル 複数言語対応
T
DefaultDF
49
0
Nanollava 1.5
Apache-2.0
nanoLLaVA-1.5は10億パラメータ以下の視覚言語モデルで、エッジデバイス向けに設計されており、小型ながら強力な機能を備えています。
画像生成テキスト Transformers 英語
N
qnguyen3
442
109
Imp V1.5 4B Phi3
Apache-2.0
Imp-v1.5-4B-Phi3は高性能で軽量なマルチモーダル大規模モデルで、わずか40億パラメータを持ち、Phi-3フレームワークとSigLIP視覚エンコーダーに基づいて構築されています。
テキスト生成画像 Transformers
I
MILVLG
140
7
Moondream2 Llamafile
Apache-2.0
moondream2はエッジデバイスで効率的に動作するように設計された小型視覚言語モデルで、llamafile形式による簡単な展開が可能です。
画像生成テキスト
M
cjpais
310
30
Nanollava
Apache-2.0
nanoLLaVAは1Bパラメータの視覚言語モデルで、エッジデバイス向けに設計され、効率的な動作が特徴です。
テキスト生成画像 Transformers 英語
N
qnguyen3
2,851
154
Uform Gen2 Qwen 500m
Apache-2.0
UForm-Genは小型の生成的視覚言語モデルで、主に画像キャプション生成と視覚的質問応答に使用されます。
画像生成テキスト Transformers 英語
U
unum-cloud
17.98k
76
Minicpm V
MiniCPM-Vは、エンドデバイス展開に最適化された効率的で軽量なマルチモーダルモデルで、中英バイリンガルのインタラクションをサポートし、同規模のモデルを凌駕する性能を発揮します。
テキスト生成画像 Transformers
M
openbmb
19.74k
173
Moondream1
16億パラメータのマルチモーダルモデル、SigLIPとPhi-1.5技術アーキテクチャを融合、画像理解と質問応答タスクをサポート
画像生成テキスト Transformers 英語
M
vikhyatk
70.48k
487
Tiny Llava V1 Hf
Apache-2.0
TinyLLaVAは小規模ながら高性能なマルチモーダルモデルフレームワークで、視覚言語タスクに特化しています。
画像生成テキスト Transformers 複数言語対応
T
bczhou
2,372
57
Uform Gen Chat
Apache-2.0
UForm-Gen-ChatはUForm-Genのマルチモーダルチャットファインチューニング版で、主に画像キャプション生成と視覚的質問応答タスクに使用されます。
画像生成テキスト Transformers 英語
U
unum-cloud
65
19
Uform Gen
Apache-2.0
UForm-Genは小型の生成的視覚言語モデルで、主に画像キャプション生成と視覚的質問応答に使用されます。
画像生成テキスト Transformers 英語
U
unum-cloud
152
44
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase