モデル選定

マルチモーダル推論

# マルチモーダル推論

GLM 4.1V 9B Thinking

GLM-4.1V-9B-Thinkingは、GLM-4-9B-0414ベースモデルに基づくオープンソースのビジュアル言語モデルで、複雑なタスクにおける推論能力の向上に特化しており、64kの文脈長と4Kの画像解像度をサポートします。

画像生成テキスト

Transformers 複数言語対応

Kimi VL A3B Thinking 2506

Kimi-VL-A3B-Thinking-2506はKimi-VL-A3B-Thinkingのアップグレード版で、マルチモーダル推論、視覚認知と理解、ビデオシーン処理などの分野で著しい向上が見られ、より高解像度の画像をサポートし、より少ないトークンを消費しながらよりスマートな思考を実現します。

画像生成テキスト

Magistral Small 2506 Vision

Magistral - Small - 2506 - Visionは、Mistral Small 3.1をベースにGRPOトレーニングを行った推論微調整バージョンで、ビジュアル能力を備えた実験的チェックポイントです。

画像生成テキスト

Safetensors 複数言語対応

RT DETR L Wireless Table Cell Det

RT-DETR-L_wireless_table_cell_detは高精度の表セル検出モデルで、表認識タスク用に設計されており、表画像内の各セル領域を正確に位置決めしてマーキングすることができます。

文字認識複数言語対応

Stockmark 2 VL 100B Beta

Stockmark-2-VL-100B-betaは1000億のパラメータを持つ日本語専用のビジュアル言語モデルで、思考連鎖（CoT）推論能力を備え、文書読解に使用できます。

画像生成テキスト

Transformers 複数言語対応

Internvl3 8B Instruct GGUF

InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル（MLLM）で、卓越した全体的な性能と強力なマルチモーダル知覚・推論能力を備えています。

テキスト生成画像

Internvl3 14B Instruct GGUF

InternVL3-14B-Instructは先進的なマルチモーダル大規模言語モデル（MLLM）で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など様々なタスクをサポートします。

画像生成テキスト

InternVL3-8Bは、高度なマルチモーダル大規模言語モデルで、卓越したマルチモーダル感知と推論能力を備え、画像や動画などのマルチモーダルデータを処理できます。

マルチモーダルアライメント

Internvl3 1B GGUF

InternVL3-1Bは、高度なマルチモーダル大規模言語モデルであり、マルチモーダル感知や推論などの能力に優れており、ツール使用やGUIエージェントなどのマルチモーダル能力も拡張されています。

マルチモーダル融合

Visionreasoner 7B

VisionReasoner-7Bは画像テキストからテキストへのモデルで、解耦アーキテクチャを採用し、推論モデルと分割モデルで構成され、ユーザーの意図を解釈してピクセルレベルのマスクを生成できます。

画像生成テキスト

Transformers 英語

Qwen2.5 VL 32B Instruct FP8 Dynamic

Qwen2.5-VL-32B-InstructモデルをベースとしたFP8量子化バージョンで、ビジュアル - テキスト入力とテキスト出力をサポートし、効率的な推論シーンに適しています。

画像生成テキスト

Transformers 英語

Gemma 3 27b It FP8 Dynamic

これはgoogle/gemma-3-27b-itの量子化バージョンで、FP8データ型を使用して重みを量子化し、ビジュアル - テキスト入力を受け取り、テキストを出力するのに適しており、vLLMによる効率的なデプロイで推論が可能です。

画像生成テキスト

Transformers 英語

Qwen3-8BはQwenシリーズの最新の大規模言語モデルで、様々な先進的な特性を備え、多言語をサポートし、推論や命令追従などの面で優れた性能を発揮し、ユーザーによりインテリジェントで自然な対話体験を提供します。

大規模言語モデル

Bespoke MiniChart 7B

Bespoke Labsが開発した7Bパラメータ規模のオープンソースチャート理解視覚言語モデルで、チャートQAタスクにおいてGemini-1.5-Proなどのクローズドソースモデルを凌駕

テキスト生成画像

Safetensors 英語

Skywork R1V2 38B

天工-R1V2-38Bは現在最も先進的なオープンソースのマルチモーダル推論モデルで、多くのベンチマークテストで卓越したパフォーマンスを示し、強力な視覚推論とテキスト理解能力を備えています。

画像生成テキスト

ViCA2は動画理解と視覚空間認知タスクに特化したマルチモーダル視覚言語モデルです。

ビデオ生成テキスト

Transformers 英語

Vica2 Stage2 Onevision Ft

ViCA2は70億パラメータ規模のマルチモーダル視覚言語モデルで、動画理解と視覚空間認知タスクに特化しています。

ビデオ生成テキスト

Transformers 英語

Internvl3 78B Hf

InternVL3 は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、ビデオ、テキスト入力をサポートします。

画像生成テキスト

Transformers その他

Synthia S1 27b Bnb 4bit

Synthia-S1-27bはTesslate AIによって開発された高度な推論AIモデルで、論理推論、コーディング、ロールプレイングタスクに特化しています。

テキスト生成画像

Spacethinker Qwen2.5VL 3B

SpaceThinkerは、テスト時計算増強により空間推論能力を強化したマルチモーダル視覚言語モデルで、特に定量的空間推論と物体関係分析に優れています。

テキスト生成画像英語

Internvl3 9B AWQ

InternVL3-9BはInternVL3シリーズのマルチモーダル大規模言語モデルで、優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など多様な応用シーンをサポートします。

テキスト生成画像

Transformers その他

Internvl3 8B AWQ

InternVL3-8BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデルで、強力なマルチモーダル知覚と推論能力を備え、ツール呼び出し、GUIエージェント、産業画像分析、3D視覚知覚などの新領域をサポートします。

画像生成テキスト

Transformers その他

TBAC VLR1 3B Preview

テンセントPCG基礎アルゴリズムセンターによってファインチューニングされたマルチモーダル言語モデルで、Qwen2.5-VL-3B-Instructを基に最適化され、同規模モデルにおいて複数のマルチモーダル推論ベンチマークで最先端の性能を実現

画像生成テキスト

Safetensors 英語

Internvl3 9B Instruct

InternVL3-9B-InstructはInternVL3シリーズの教師付き微調整バージョンで、強力なマルチモーダル知覚と推論能力を備え、画像、テキスト、動画など様々なモダリティ処理をサポートします。

画像生成テキスト

Transformers その他

Internvl3 8B Instruct

InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル（MLLM）で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など多様な機能をサポートします。

画像生成テキスト

Transformers その他

Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16

これはINT4量子化されたMistral-Small-3.1-24B-Instruct-2503モデルで、Red Hat (Neural Magic)によって最適化され、高速応答のダイアログエージェントや低遅延推論シナリオに適しています。

テキスト生成画像

Safetensors 複数言語対応

VL-Reasoner-7B は GRPO-SSR 技術に基づいてトレーニングされたマルチモーダル推論モデルで、複数のマルチモーダル推論ベンチマークテストで優れたパフォーマンスを発揮します。

テキスト生成画像

Transformers 英語

General Reasoner 14B Preview

Qwen2.5-14BベースモデルとVisualWebInstruct-Verifiedデータセットでトレーニングされたマルチモーダル推論モデルで、英語タスク処理をサポートします。

大規模言語モデル

Transformers 英語

Spaceqwen2.5 VL 3B Instruct GGUF

SpaceQwen2.5-VL-3B-Instruct は空間推論とエンボディドAIタスクに特化したマルチモーダル視覚言語モデルです。

テキスト生成画像英語

R01 Gemma 3 1b It

Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルで、Geminiと同じ技術を基に構築されており、テキストと画像の入力を受け取りテキストを出力します。

テキスト生成画像

Transformers 英語

DeepCogitoが提供する反復蒸留と拡大（IDA）トレーニングによる強力なハイブリッド推論モデルで、プログラミング、STEM、多言語、エージェントアプリケーションのシナリオで優れたパフォーマンスを発揮します。

大規模言語モデル

Space Voice Label Detect Beta

Qwen2.5-VL-3Bモデルを基にしたファインチューニング版で、UnslothとHuggingface TRLライブラリを使用して訓練され、推論速度が2倍向上

テキスト生成画像

Transformers 英語

WebDreamerは現実世界のウェブエージェントタスクに対して効率的かつ効果的な計画を実現する計画フレームワークです。

画像生成テキスト

Transformers 英語

Gemma 3 27b It GGUF

Gemma 3 27BパラメータのGGUF量子化バージョン、画像テキストインタラクションタスクをサポート

テキスト生成画像

Qwen2.5-VLを基に革新的なCurr-ReFT手法でファインチューニングされたマルチモーダル大規模言語モデルで、視覚言語理解と推論能力が大幅に向上しています。

テキスト生成画像

STEVE R1 7B SFT I1 GGUF

これはFanbin/STEVE-R1-7B-SFTモデルを重み/行列量子化したバージョンで、リソースが限られた環境に適しています。

テキスト生成画像英語

VideoMindはマルチモーダルエージェントフレームワークで、人間の思考プロセス（タスク分解、時間的定位と検証、回答合成など）を模倣することで動画推論能力を強化します。

ビデオ生成テキスト

Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g

本モデルはMistral-Small-3.1-24B-Instruct-2503をINT4量子化したバージョンで、GPTQアルゴリズムにより重みを16ビットから4ビットに削減し、ディスクサイズとGPUメモリ要件を大幅に削減しました。

大規模言語モデル

Vintern 3B R Beta

Vintern-3B-R-betaは画像ベースの複雑な推論タスクに特化したマルチモーダル大規模言語モデルで、推論ステップを分解し幻覚現象を効果的に制御できます。

画像生成テキスト

Transformers 複数言語対応

Llama 3.2 11B Vision Medical

unsloth/Llama-3.2-11B-Vision-Instructを基に微調整されたモデルで、UnslothとHuggingfaceのTRLライブラリを使用してトレーニングされ、速度が2倍向上しました。

テキスト生成画像

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase