モデル選定

マルチモーダル画像テキスト理解

# マルチモーダル画像テキスト理解

Gemma 3 12b It Qat GGUF

GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルを構築する技術に基づいています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。

テキスト生成画像

Gemma 3 4b It Qat Q4 0 Unquantized

Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルで、Geminiと同じ技術を基に構築されており、テキストと画像の入力を受け取りテキスト出力を生成します。

画像生成テキスト

Qwen2.5 VL 3B Instruct GGUF

Qwen2.5-VL-3B-Instructは3Bパラメータ規模のマルチモーダルモデルで、画像テキスト生成タスクをサポートし、特にllama.cppでの視覚機能サポートを最適化しています。

テキスト生成画像英語

Open-Qwen2VLはマルチモーダルモデルで、画像とテキストを入力として受け取り、テキスト出力を生成できます。

画像生成テキスト英語

Qwen.qwen2.5 VL 3B Instruct GGUF

Qwen2.5-VL-3B-Instructは3Bパラメータの視覚言語モデルで、画像とテキストからテキストを生成するタスクをサポートします。

画像生成テキスト

Qwen.qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instructは7Bパラメータ規模のマルチモーダル視覚言語モデルで、画像とテキストの共同理解と生成タスクをサポートします。

画像生成テキスト

Qwen2.5 VL 3B Instruct GPTQ Int3

Qwen2.5-VL-3B-InstructのGPTQ-Int3量子化バージョンで、マルチモーダル画像テキスト処理タスクに適しており、VRAM使用量が少なく、推論速度が速い。

画像生成テキスト

Transformers 複数言語対応

Qwen2.5 VL 7B Instruct GPTQ Int3

これはQwen2.5-VL-7B-Instructモデルに基づく非公式のGPTQ-Int3量子化バージョンで、画像テキストからテキストへのマルチモーダルタスクに適しています。

画像生成テキスト

Transformers 複数言語対応

Gemma 3 12b It Qat Q4 0 Gguf

Gemma 3はGoogleが提供する軽量で最先端のオープンソースマルチモーダルモデルで、画像とテキストの入力とテキスト出力をサポートし、128Kのコンテキストウィンドウと140以上の言語に対応しています。

画像生成テキスト

Gme Qwen2 VL 2B Instruct GGUF

これは英語と中国語をサポートするマルチモーダルモデルの量子化バージョンで、画像テキストからテキストへのタスクに適しています。

画像生成テキスト複数言語対応

Paligemma2 3b Mix 224 Jax

PaliGemma 2はGemma 2を基にしたアップグレード版の視覚言語モデルで、多言語の画像テキスト入力とテキスト出力をサポートし、視覚言語タスク専用に設計されています

テキスト生成画像

Paligemma2 10b Mix 448

PaliGemma 2はGemma 2を基にした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを出力します。様々な視覚言語タスクに適しています。

画像生成テキスト

LLaVA-1.6はオープンソースの視覚言語モデルで、画像テキストからテキストへのタスクをサポートし、視覚理解とテキスト生成能力が改善されています。

画像生成テキスト

Image Caption Large Copy

BLIPは先進的な視覚-言語事前学習モデルで、画像キャプション生成タスクに優れており、ガイド付きアノテーション戦略によりウェブデータを効果的に活用

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase