モデル選定

マルチモーダル視覚質問応答

# マルチモーダル視覚質問応答

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、Neural Magicによって最適化・公開されています。

画像生成テキスト

Transformers 英語

Qwen2.5 VL 3B Instruct Quantized.w4a16

Qwen2.5-VL-3B-Instructの量子化バージョンで、重みをINT4、活性化をFP16に量子化しており、視覚-テキストタスクの効率的な推論に適しています。

テキスト生成画像

Transformers 英語

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、マルチモーダルタスクに適しています。

テキスト生成画像

Transformers 英語

Qwen2 VL 7B Instruct GGUF

Qwen2-VL-7B-Instructを基にしたマルチモーダルモデルの量子化バージョンで、画像テキストからテキストタスクをサポートし、様々な量子化レベルに対応しています。

画像生成テキスト英語

Erax VL 7B V2.0 Preview GGUF

EraX-VL-7B-V2.0-Previewは、ベトナム語、英語、中国語をサポートするマルチモーダル基盤モデルで、様々な視覚言語タスクに適用可能です。

画像生成テキスト複数言語対応

Erax VL 2B V1.5 Q4 K M GGUF

これはマルチモーダル視覚質問応答モデルで、ベトナム語、英語、中国語をサポートし、erax-ai/EraX-VL-2B-V1.5を変換したGGUFフォーマットバージョンです。

テキスト生成画像複数言語対応

Qwen2 VL 7B Instruct GGUF

Qwen2-VL-7B-Instructは、画像とテキストの統合理解と生成タスクをサポートするマルチモーダル視覚言語モデルです。

画像生成テキスト英語

Paligemma2 28b Pt 896

PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2言語モデルとSigLIP視覚モデルの能力を統合し、画像とテキスト入力を処理してテキスト出力を生成します。

画像生成テキスト

Paligemma2 3b Mix 224

PaliGemma 2はGoogleが開発したアップグレード版の視覚言語モデルで、Gemma 2の能力を組み合わせ、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。

画像生成テキスト

Minicpm Llama3 V 2 5 GGUF

MiniCPM-Llama3-V-2_5はLlama3アーキテクチャに基づくマルチモーダル視覚質問応答モデルで、中英二言語のインタラクションをサポートします。

テキスト生成画像複数言語対応

Llama 3.1 8B Vision 378

このプロジェクトでは、Llama 3に視覚能力を追加するための投影モジュールを訓練し、SigLIP技術を使用してLlama-3.1-8B-Instructモデルに適用しました。

画像生成テキスト

Yi-VL-6Bは01-AIによって開発されたマルチモーダル視覚言語モデルで、中国語と英語をサポートし、視覚質問応答などのタスクに適しています。

画像生成テキスト

Transformers 複数言語対応

Paligemma 3b Ft Science Qa 448

PaliGemmaはGoogleが開発した30億パラメータの軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力からテキスト出力を生成できます。

画像生成テキスト

Paligemma 3b Mix 448

PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を受け取りテキストを生成します

画像生成テキスト

Paligemma 3b Ft Docvqa 896

PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、多言語の画像テキスト理解と生成をサポートします。

画像生成テキスト

Paligemma 3b Ft Vqav2 448

PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、画像理解とテキスト生成能力を組み合わせ、多言語タスクをサポートします。

テキスト生成画像

Paligemma 3b Ft Ocrvqa 448

PaliGemmaはGoogleが開発した多機能軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキスト入力をサポートし、テキスト結果を出力します。

画像生成テキスト

Excalibur 7b DPO

Excalibur-7b-DPOはExcalibur-7bベースモデルを直接選好最適化(DPO)でファインチューニングした大規模言語モデルで、対話品質と視覚アプリケーションシーンのパフォーマンス向上に焦点を当てています。

大規模言語モデル

InferenceIllusionist

FireLLaVA-13Bはオープンソースの大規模言語モデルから生成された命令データで訓練された視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase