モデル選定

マルチモーダル理解

# マルチモーダル理解

Gemma 3 27b It Quantized.w4a16

これはgoogle/gemma-3-27b-itの量子化バージョンで、ビジュアル - テキスト入力とテキスト出力をサポートし、重み量子化と活性化量子化による最適化を行い、vLLMを使用して高効率推論が可能です。

画像生成テキスト

Nvidia.cosmos Reason1 7B GGUF

Cosmos-Reason1-7BはNVIDIAがリリースした70億パラメータ規模のベースモデルで、画像からテキストへの変換タスクに特化しています。

大規模言語モデル

Devstral Small Vision 2505 GGUF

Mistral Smallモデルを基にした視覚エンコーダーで、画像テキスト生成タスクをサポートし、llama.cppフレームワークに適応

画像生成テキスト

Fastvlm 0.5B Stage3

FastVLM-0.5B-Stage3は、ビジュアル理解と言語処理能力を備えた高効率のマルチモーダル言語モデルで、長時間ビデオを処理し、構造化出力を生成することができます。

画像生成テキスト

Transformers 英語

Fastvlm 0.5B Stage2

FastVLM-0.5B-Stage2は、ビジュアルコンテンツを理解し、テキストタスクを処理できる効率的なマルチモーダル言語モデルです。

マルチモーダル融合

Transformers 英語

Magma-8BはGGUF形式の画像テキストからテキストへの変換モデルで、マルチモーダルタスク処理に適しています。

画像生成テキスト

タイ・英語バイリンガルの現実世界文書解析のために特別に設計された視覚言語モデル、Qwen2.5-VL-Instructionフレームワークベース

画像生成テキスト

Transformers 複数言語対応

Gemma 3 1b It Qat Bnb 4bit

Gemma 3はGoogleが提供する軽量オープンモデルシリーズで、Gemini技術を基盤に構築されており、マルチモーダル入力とテキスト出力をサポートします。

画像生成テキスト

Qwen Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instructのマルチモーダル大規模言語モデル量子化バージョン、画像テキストからテキストタスクをサポート、高精度から低メモリ要求までの多様な量子化レベルに対応。

テキスト生成画像英語

Qwen Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instructの量子化バージョンで、llama.cppを使用して量子化されており、マルチモーダルタスクをサポートし、画像からテキストへの変換などのアプリケーションシーンに適しています。

テキスト生成画像英語

Vilt Finetuned 100

VQAデータセットでファインチューニングされたViLT-B32-MLMモデルベースの視覚言語モデル

テキスト生成画像

TEMPURA Qwen2.5 VL 3B S1

TEMPURAは因果推論と細粒度時間セグメンテーションを統合したビデオ時系列理解フレームワークで、2段階トレーニングによりビデオイベント理解能力を向上

ビデオ生成テキスト

Qwen2.5 Vl 7b Cam Motion Preview

Qwen2.5-VL-7B-Instructをファインチューニングしたカメラ運動分析モデルで、ビデオ内のカメラ運動分類とビデオ-テキスト検索タスクに特化

ビデオ生成テキスト

Webssl Dino7b Full8b 518

80億のMetaCLIPデータで訓練された70億パラメータの視覚Transformerモデル、DINOv2自己監視学習フレームワークを採用、言語監視不要

Gemma 3 12b It Qat Int4 GGUF

Gemma 3はGoogleがGemini技術を基に構築した軽量オープンモデルシリーズで、12Bバージョンは量子化対応トレーニング(QAT)技術を採用し、マルチモーダル入力と128Kコンテキストウィンドウをサポートします。

テキスト生成画像

Gemma 3 27b It Qat Unsloth Bnb 4bit

Gemma 3はGoogleが開発した軽量級で最先端のマルチモーダルオープンソースモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。

画像生成テキスト

Gemma 3 27b It Qat GGUF

Gemma 3はGoogleがGemini技術に基づいて構築した軽量オープンモデルシリーズで、マルチモーダル入力とテキスト出力をサポートし、128Kの大規模コンテキストウィンドウと140以上の言語サポートを備えています。

テキスト生成画像英語

Gemma 3 1b It Qat

Gemma 3はGoogleが開発した軽量マルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。このモデルは128Kの大きなコンテキストウィンドウと140種類以上の言語のマルチ言語サポートを備えています。

画像生成テキスト

Gemma 3 4b It Qat Unsloth Bnb 4bit

Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデル技術を基盤としており、マルチモーダル入力とテキスト出力をサポートしています。

画像生成テキスト

Gemma 3 12b It Qat Int4

Gemma 3はGoogleが提供する軽量オープンモデルシリーズで、Geminiモデルの研究と技術に基づいて構築されています。12Bバージョンは指示チューニングされたマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。

画像生成テキスト

Gemma 3 27b It Qat

GemmaはGoogleが提供する軽量オープンモデルシリーズで、Geminiモデル技術を基に構築されています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。128Kの大規模コンテキストウィンドウと多言語能力を備えています。

画像生成テキスト

Gemma 3 12b It Qat Unsloth Bnb 4bit

Gemma 3はGoogleが発表した軽量で最先端のオープンモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。マルチモーダル入力とテキスト出力をサポートします。

画像生成テキスト

Gemma 3 12b It Qat

Gemma 3はGoogleが開発した軽量で最先端のマルチモーダルオープンソースモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。様々なテキスト生成と画像理解タスクに適しています。

画像生成テキスト

Salesforce/blip2-opt-2.7bをファインチューニングした視覚言語モデルで、画像質問応答タスク用

テキスト生成画像

Blip Custom Captioning

BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成などの視覚-言語タスクに優れています

画像生成テキスト

Internvl3 8B 6bit

InternVL3-8B-6bit はMLXフォーマット変換に基づく視覚言語モデルで、多言語の画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers その他

Gemma 3 12B It Qat GGUF

Gemma 3 12B ITはGoogleが開発した大規模言語モデルで、マルチモーダル入力と長いコンテキスト処理をサポートしています。

画像生成テキスト

lmstudio-community

Gemma 3 4B It Qat GGUF

Googleが開発したGemma 3 4B ITモデルは、マルチモーダル入力と長文コンテキスト処理をサポートし、テキスト生成や画像理解タスクに適しています。

画像生成テキスト

lmstudio-community

Kimi VL A3B Thinking 8bit

Kimi-VL-A3B-Thinking-8bitは、MLX形式に変換されたマルチモーダル視覚言語モデルで、画像テキストからテキストへの生成タスクをサポートしています。

画像生成テキスト

Transformers その他

Kimi VL A3B Thinking 6bit

Kimi-VL-A3B-Thinking-6bitは、MLX形式に変換された多言語のビジュアル言語モデルで、画像テキストからテキストへのタスクをサポートしています。

画像生成テキスト

Transformers その他

Gemma 3 27b It Qat Bf16

Gemma 3 27B IT QAT BF16 は Google がリリースした Gemma シリーズモデルのバージョンで、量子化認識トレーニング（QAT）を経て BF16 形式に変換され、MLX フレームワークに適しています。

画像生成テキスト

Gemma 3 27b It Qat 6bit

これはGoogle Gemma 3 27Bモデルに基づく量子化バージョンで、6ビット量子化をサポートし、画像テキストからテキストへのタスクに適しています。

画像生成テキスト

Transformers その他

Gemma 3 27b It Qat 3bit

このモデルはgoogle/gemma-3-27b-it-qat-q4_0-unquantizedからMLXフォーマットに変換された3ビット量子化バージョンで、画像テキストからテキストタスクに適しています。

画像生成テキスト

Transformers その他

Gemma 3 27b It Qat 4bit

Gemma 3 27B IT QAT 4bit はGoogleのオリジナルモデルから変換されたMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers その他

Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8

これはRed HatとNeural Magicによって最適化されたINT8量子化されたMistral-Small-3.1-24B-Instruct-2503モデルで、高速応答と低遅延シナリオに適しています。

Safetensors 複数言語対応

Gemma 3 4b It Qat 4bit

Gemma 3 4B IT QAT 4bit は、量子化認識トレーニング（QAT）を経た4ビット量子化大規模言語モデルで、Gemma 3アーキテクチャに基づき、MLXフレームワーク向けに最適化されています。

画像生成テキスト

Transformers その他

Gemma 3 27b It Qat Q4 0 Unquantized

Gemma 3はGoogleが提供する軽量で先進的なマルチモーダルオープンモデルで、Geminiモデルと同じ研究と技術に基づいて構築されており、テキストと画像の入力をサポートしテキスト出力を生成します。

テキスト生成画像

Debiased Llama 4 Scout 17B 16E Instruct

Llama 4 ScoutはMetaが開発したネイティブマルチモーダルAIモデルで、多言語テキストと画像の理解をサポートし、ハイブリッドエキスパートアーキテクチャを採用しており、テキストと画像の理解において業界をリードする性能を持っています。

テキスト生成画像

Transformers 複数言語対応

Videochat R1 7B

VideoChat-R1_7B は Qwen2.5-VL-7B-Instruct をベースとしたマルチモーダル動画理解モデルで、動画とテキスト入力を処理し、テキスト出力を生成できます。

ビデオ生成テキスト

Transformers 英語

Gemma 3 4b It GPTQ 4b 128g

gemma-3-4b-itモデルを基にINT4量子化を施したバージョンで、ストレージと計算リソースの需要を大幅に削減

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase