# マルチモーダル推論

GLM 4.1V 9B Thinking
MIT
GLM-4.1V-9B-Thinkingは、GLM-4-9B-0414ベースモデルに基づくオープンソースのビジュアル言語モデルで、複雑なタスクにおける推論能力の向上に特化しており、64kの文脈長と4Kの画像解像度をサポートします。
画像生成テキスト Transformers 複数言語対応
G
THUDM
163
95
Kimi VL A3B Thinking 2506
MIT
Kimi-VL-A3B-Thinking-2506はKimi-VL-A3B-Thinkingのアップグレード版で、マルチモーダル推論、視覚認知と理解、ビデオシーン処理などの分野で著しい向上が見られ、より高解像度の画像をサポートし、より少ないトークンを消費しながらよりスマートな思考を実現します。
画像生成テキスト Transformers
K
moonshotai
515
67
Magistral Small 2506 Vision
Apache-2.0
Magistral - Small - 2506 - Visionは、Mistral Small 3.1をベースにGRPOトレーニングを行った推論微調整バージョンで、ビジュアル能力を備えた実験的チェックポイントです。
画像生成テキスト Safetensors 複数言語対応
M
OptimusePrime
125
5
RT DETR L Wireless Table Cell Det
Apache-2.0
RT-DETR-L_wireless_table_cell_detは高精度の表セル検出モデルで、表認識タスク用に設計されており、表画像内の各セル領域を正確に位置決めしてマーキングすることができます。
文字認識 複数言語対応
R
PaddlePaddle
1,144
0
Stockmark 2 VL 100B Beta
その他
Stockmark-2-VL-100B-betaは1000億のパラメータを持つ日本語専用のビジュアル言語モデルで、思考連鎖(CoT)推論能力を備え、文書読解に使用できます。
画像生成テキスト Transformers 複数言語対応
S
stockmark
184
8
Internvl3 8B Instruct GGUF
Apache-2.0
InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、卓越した全体的な性能と強力なマルチモーダル知覚・推論能力を備えています。
テキスト生成画像 Transformers
I
unsloth
2,412
1
Internvl3 14B Instruct GGUF
Apache-2.0
InternVL3-14B-Instructは先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など様々なタスクをサポートします。
画像生成テキスト Transformers
I
unsloth
982
1
Internvl3 8B
Apache-2.0
InternVL3-8Bは、高度なマルチモーダル大規模言語モデルで、卓越したマルチモーダル感知と推論能力を備え、画像や動画などのマルチモーダルデータを処理できます。
マルチモーダルアライメント Transformers
I
unsloth
224
1
Internvl3 1B GGUF
Apache-2.0
InternVL3-1Bは、高度なマルチモーダル大規模言語モデルであり、マルチモーダル感知や推論などの能力に優れており、ツール使用やGUIエージェントなどのマルチモーダル能力も拡張されています。
マルチモーダル融合 Transformers
I
unsloth
868
2
Visionreasoner 7B
Apache-2.0
VisionReasoner-7Bは画像テキストからテキストへのモデルで、解耦アーキテクチャを採用し、推論モデルと分割モデルで構成され、ユーザーの意図を解釈してピクセルレベルのマスクを生成できます。
画像生成テキスト Transformers 英語
V
Ricky06662
2,398
1
Qwen2.5 VL 32B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-32B-InstructモデルをベースとしたFP8量子化バージョンで、ビジュアル - テキスト入力とテキスト出力をサポートし、効率的な推論シーンに適しています。
画像生成テキスト Transformers 英語
Q
BCCard
140
1
Gemma 3 27b It FP8 Dynamic
Apache-2.0
これはgoogle/gemma-3-27b-itの量子化バージョンで、FP8データ型を使用して重みを量子化し、ビジュアル - テキスト入力を受け取り、テキストを出力するのに適しており、vLLMによる効率的なデプロイで推論が可能です。
画像生成テキスト Transformers 英語
G
RedHatAI
1,608
1
Qwen3 8B
Apache-2.0
Qwen3-8BはQwenシリーズの最新の大規模言語モデルで、様々な先進的な特性を備え、多言語をサポートし、推論や命令追従などの面で優れた性能を発揮し、ユーザーによりインテリジェントで自然な対話体験を提供します。
大規模言語モデル Transformers
Q
unsloth
30.23k
5
Bespoke MiniChart 7B
Bespoke Labsが開発した7Bパラメータ規模のオープンソースチャート理解視覚言語モデルで、チャートQAタスクにおいてGemini-1.5-Proなどのクローズドソースモデルを凌駕
テキスト生成画像 Safetensors 英語
B
bespokelabs
437
12
Skywork R1V2 38B
MIT
天工-R1V2-38Bは現在最も先進的なオープンソースのマルチモーダル推論モデルで、多くのベンチマークテストで卓越したパフォーマンスを示し、強力な視覚推論とテキスト理解能力を備えています。
画像生成テキスト Transformers
S
Skywork
1,778
105
Vica2 Init
Apache-2.0
ViCA2は動画理解と視覚空間認知タスクに特化したマルチモーダル視覚言語モデルです。
ビデオ生成テキスト Transformers 英語
V
nkkbr
30
0
Vica2 Stage2 Onevision Ft
Apache-2.0
ViCA2は70億パラメータ規模のマルチモーダル視覚言語モデルで、動画理解と視覚空間認知タスクに特化しています。
ビデオ生成テキスト Transformers 英語
V
nkkbr
63
0
Internvl3 78B Hf
その他
InternVL3 は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、ビデオ、テキスト入力をサポートします。
画像生成テキスト Transformers その他
I
OpenGVLab
40
1
Synthia S1 27b Bnb 4bit
Synthia-S1-27bはTesslate AIによって開発された高度な推論AIモデルで、論理推論、コーディング、ロールプレイングタスクに特化しています。
テキスト生成画像 Transformers
S
GusPuffy
858
1
Spacethinker Qwen2.5VL 3B
Apache-2.0
SpaceThinkerは、テスト時計算増強により空間推論能力を強化したマルチモーダル視覚言語モデルで、特に定量的空間推論と物体関係分析に優れています。
テキスト生成画像 英語
S
remyxai
490
7
Internvl3 9B AWQ
MIT
InternVL3-9BはInternVL3シリーズのマルチモーダル大規模言語モデルで、優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など多様な応用シーンをサポートします。
テキスト生成画像 Transformers その他
I
OpenGVLab
214
1
Internvl3 8B AWQ
その他
InternVL3-8BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデルで、強力なマルチモーダル知覚と推論能力を備え、ツール呼び出し、GUIエージェント、産業画像分析、3D視覚知覚などの新領域をサポートします。
画像生成テキスト Transformers その他
I
OpenGVLab
1,441
3
TBAC VLR1 3B Preview
Apache-2.0
テンセントPCG基礎アルゴリズムセンターによってファインチューニングされたマルチモーダル言語モデルで、Qwen2.5-VL-3B-Instructを基に最適化され、同規模モデルにおいて複数のマルチモーダル推論ベンチマークで最先端の性能を実現
画像生成テキスト Safetensors 英語
T
TencentBAC
328
11
Internvl3 9B Instruct
MIT
InternVL3-9B-InstructはInternVL3シリーズの教師付き微調整バージョンで、強力なマルチモーダル知覚と推論能力を備え、画像、テキスト、動画など様々なモダリティ処理をサポートします。
画像生成テキスト Transformers その他
I
OpenGVLab
220
2
Internvl3 8B Instruct
その他
InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など多様な機能をサポートします。
画像生成テキスト Transformers その他
I
OpenGVLab
885
2
Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16
Apache-2.0
これはINT4量子化されたMistral-Small-3.1-24B-Instruct-2503モデルで、Red Hat (Neural Magic)によって最適化され、高速応答のダイアログエージェントや低遅延推論シナリオに適しています。
テキスト生成画像 Safetensors 複数言語対応
M
RedHatAI
219
1
VL Reasoner 7B
Apache-2.0
VL-Reasoner-7B は GRPO-SSR 技術に基づいてトレーニングされたマルチモーダル推論モデルで、複数のマルチモーダル推論ベンチマークテストで優れたパフォーマンスを発揮します。
テキスト生成画像 Transformers 英語
V
TIGER-Lab
126
1
General Reasoner 14B Preview
Apache-2.0
Qwen2.5-14BベースモデルとVisualWebInstruct-Verifiedデータセットでトレーニングされたマルチモーダル推論モデルで、英語タスク処理をサポートします。
大規模言語モデル Transformers 英語
G
TIGER-Lab
33
3
Spaceqwen2.5 VL 3B Instruct GGUF
Apache-2.0
SpaceQwen2.5-VL-3B-Instruct は空間推論とエンボディドAIタスクに特化したマルチモーダル視覚言語モデルです。
テキスト生成画像 英語
S
mradermacher
282
0
R01 Gemma 3 1b It
Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルで、Geminiと同じ技術を基に構築されており、テキストと画像の入力を受け取りテキストを出力します。
テキスト生成画像 Transformers 英語
R
EpistemeAI
17
1
Cogito V1
Apache-2.0
DeepCogitoが提供する反復蒸留と拡大(IDA)トレーニングによる強力なハイブリッド推論モデルで、プログラミング、STEM、多言語、エージェントアプリケーションのシナリオで優れたパフォーマンスを発揮します。
大規模言語モデル
C
cortexso
4,002
2
Space Voice Label Detect Beta
Apache-2.0
Qwen2.5-VL-3Bモデルを基にしたファインチューニング版で、UnslothとHuggingface TRLライブラリを使用して訓練され、推論速度が2倍向上
テキスト生成画像 Transformers 英語
S
devJy
38
1
Dreamer 7B
Apache-2.0
WebDreamerは現実世界のウェブエージェントタスクに対して効率的かつ効果的な計画を実現する計画フレームワークです。
画像生成テキスト Transformers 英語
D
osunlp
62
3
Gemma 3 27b It GGUF
Gemma 3 27BパラメータのGGUF量子化バージョン、画像テキストインタラクションタスクをサポート
テキスト生成画像
G
Mungert
4,034
6
3B Curr ReFT
Apache-2.0
Qwen2.5-VLを基に革新的なCurr-ReFT手法でファインチューニングされたマルチモーダル大規模言語モデルで、視覚言語理解と推論能力が大幅に向上しています。
テキスト生成画像
3
ZTE-AIM
37
3
STEVE R1 7B SFT I1 GGUF
Apache-2.0
これはFanbin/STEVE-R1-7B-SFTモデルを重み/行列量子化したバージョンで、リソースが限られた環境に適しています。
テキスト生成画像 英語
S
mradermacher
394
0
Videomind 2B
Bsd-3-clause
VideoMindはマルチモーダルエージェントフレームワークで、人間の思考プロセス(タスク分解、時間的定位と検証、回答合成など)を模倣することで動画推論能力を強化します。
ビデオ生成テキスト
V
yeliudev
207
1
Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g
Apache-2.0
本モデルはMistral-Small-3.1-24B-Instruct-2503をINT4量子化したバージョンで、GPTQアルゴリズムにより重みを16ビットから4ビットに削減し、ディスクサイズとGPUメモリ要件を大幅に削減しました。
大規模言語モデル
M
ISTA-DASLab
21.89k
13
Vintern 3B R Beta
MIT
Vintern-3B-R-betaは画像ベースの複雑な推論タスクに特化したマルチモーダル大規模言語モデルで、推論ステップを分解し幻覚現象を効果的に制御できます。
画像生成テキスト Transformers 複数言語対応
V
5CD-AI
1,841
14
Llama 3.2 11B Vision Medical
Apache-2.0
unsloth/Llama-3.2-11B-Vision-Instructを基に微調整されたモデルで、UnslothとHuggingfaceのTRLライブラリを使用してトレーニングされ、速度が2倍向上しました。
テキスト生成画像 Transformers 英語
L
Varu96
25
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase