モデル選定

マルチモーダル視覚理解

# マルチモーダル視覚理解

Gemma 3 12b It Quantized.w8a8

google/gemma-3-12b-itをベースとしたINT8量子化バージョンで、視覚テキスト入力とテキスト出力をサポートし、高効率推論デプロイに適しています。

画像生成テキスト

Qwen2.5 VL 3B Instruct GGUF

Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とマルチモーダル処理能力を備えています。

画像生成テキスト英語

PE Lang G14 448

知覚エンコーダは視覚言語トレーニングによって実現された最先端の画像・動画理解エンコーダで、強力な汎化能力を備えています。

テキスト生成画像

PE Lang L14 448

知覚エンコーダ（PE）は、視覚と言語の学習を通じて訓練された先進的な画像・動画理解エンコーダで、様々な視覚タスクにおいて最先端の性能を発揮します。

テキスト生成画像

Qwen2.5-VL-32B-InstructはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、マルチモーダルタスク処理をサポートします。

画像生成テキスト

Transformers 複数言語対応

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct はマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。

画像生成テキスト英語

Qwen2.5 VL 32B Instruct Exl2 4 25bpw

Qwen2.5-VL-32B-Instruct は Qwen ファミリーの最新の視覚言語モデルで、強力なマルチモーダル理解と生成能力を備え、画像、動画、テキストのインタラクションをサポートします。

テキスト生成画像

Transformers 英語

christopherthompson81

Amoral Gemma3 12B Vision

soob3123/amoral-gemma3-12Bをベースにした視覚強化バージョンで、Gemma3-12B大規模言語モデルと視覚エンコーダーを統合し、マルチモーダルタスクをサポート

画像生成テキスト

Transformers 英語

Qwen2.5 VL Instruct 3B Geo

Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、視覚理解とエージェント能力の強化に焦点を当てています。

テキスト生成画像

Transformers 英語

Mlabonne Gemma 3 4b It Abliterated GGUF

これはmlabonne/gemma-3-4b-it-abliteratedモデルを基にした量子化バージョンで、llama.cppを使用してimatrix量子化を行い、画像テキストからテキストへのタスクに適しています。

画像生成テキスト

Toriigate V0.4 7B I1 GGUF

これはMinthy/ToriiGate-v0.4-7Bモデルに対して重み/重要度行列量子化を施したバージョンで、様々なニーズに対応する複数の量子化オプションを提供します。

画像生成テキスト英語

Qwen2.5 VL 72B Instruct AWQ Fix

Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とエージェント能力を備え、マルチフォーマットの視覚位置特定と構造化出力生成をサポートします。

画像生成テキスト

Transformers 英語

Qwen2.5 VL 72B Instruct AWQ

Qwen2.5-VLは通義千問チームが開発したマルチモーダル大規模言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、画像、動画、テキストなど様々な入力形式をサポートします。

テキスト生成画像

Transformers 英語

Qwen2.5 VL 7B Instruct AWQ

Qwen2.5-VLは通義千問が開発したマルチモーダル視覚言語モデルで、強力な画像理解とテキスト生成能力を備えています。

画像生成テキスト

Transformers 英語

Minicpm O 2 6 Gguf

MiniCPM-o 2.6はマルチモーダルモデルで、視覚と言語タスクをサポートし、llama.cpp向けに設計されています。

画像生成テキスト

Razorback 12B V0.2

Razorback 12B v0.2はPixtral 12BとUnslopNemo v3の利点を組み合わせたマルチモーダルモデルで、視覚理解と言語処理能力を備えています。

画像生成テキスト

Transformers 複数言語対応

Qwen2 VL 72B Instruct GGUF

Qwen2-VL-72B-InstructのGGUF量子化バージョンで、マルチモーダルの画像テキストからテキストへの変換をサポートし、LlamaEdgeで実行できます。

画像生成テキスト

Transformers 英語

Llama 3.2 90B Vision Instruct Unsloth Bnb 4bit

Meta Llama 3.2シリーズ90Bパラメータのマルチモーダル大規模言語モデル、視覚的指示理解をサポート、Unsloth動的4ビット量子化で最適化

テキスト生成画像

Transformers 英語

Minicpm V 2 6 Rk3588 1.1.4

MiniCPM-V 2.6は単一画像、複数画像、動画理解をサポートするGPT-4Vレベルのマルチモーダル大規模言語モデルで、RK3588 NPU向けに最適化されています

画像生成テキスト

Transformers その他

カンブリア紀は、視覚を中核に設計されたオープンソースのマルチモーダルLLM（大規模言語モデル）です。

テキスト生成画像

Phi 3 Vision 128k Instruct

Phi-3-Vision-128K-Instructは、軽量で最先端のオープンマルチモーダルモデルで、128Kトークンの文脈長をサポートし、テキストと視覚領域の高品質な推論に焦点を当てています。

画像生成テキスト

Transformers その他

Llava Phi 3 Mini 4k Instruct

Phi-3-mini-3.8B大規模言語モデルとLLaVA v1.5を組み合わせた視覚言語モデルで、高度な視覚言語理解能力を提供します。

画像生成テキスト

Owlv2 Base Patch16

OWLv2は視覚言語事前学習に基づくモデルで、物体検出と位置特定タスクに特化しています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase