モデル選定

視覚的質問応答

# 視覚的質問応答

Gemma 3 12b It Qat Int4 GGUF

Gemma 3はGoogleがGemini技術を基に構築した軽量オープンモデルシリーズで、12Bバージョンは量子化対応トレーニング(QAT)技術を採用し、マルチモーダル入力と128Kコンテキストウィンドウをサポートします。

テキスト生成画像

GITはトランスフォーマーベースの画像からテキストを生成するモデルで、入力画像に基づいて記述的なテキストを生成できます。

画像生成テキスト

PyTorch 複数言語対応

Vora 7B Instruct

VoRAは7Bパラメータの視覚-言語モデルで、画像テキストからテキストへの変換タスクに特化しています。

画像生成テキスト

Sapnous-6Bは先進的な視覚言語モデルで、強力なマルチモーダル能力により世界の知覚と理解を向上させます。

画像生成テキスト

Transformers 英語

Gemma 3 27b It GPTQ 4b 128g

このモデルはgemma-3-27b-itをINT4量子化したバージョンで、各パラメータのビット数を減らすことでディスクとGPUメモリの要件を低減しています。

画像生成テキスト

Gemma 3 4b It Qat Q4 0 Gguf

Gemma 3はGoogleが提供する軽量で最先端のオープンソースマルチモーダルモデルで、テキストと画像の入力に対応しテキストを出力します。128Kのコンテキストウィンドウと140以上の言語をサポート

画像生成テキスト

Gemma 3 12b It GGUF

Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、Geminiと同じ技術を基に構築されており、テキストと画像の入力を受け取りテキストを出力します

画像生成テキスト

GemmaはGoogleが提供する軽量で最先端のオープンモデルシリーズで、Geminiと同じ技術を基に構築されており、マルチモーダル入力とテキスト出力をサポートします。

画像生成テキスト

Smolvlm2 500M Video Instruct

軽量マルチモーダルモデルで、動画コンテンツ分析のために設計されており、動画、画像、テキスト入力を処理してテキスト出力を生成できます。

画像生成テキスト

Transformers 英語

Smolvlm2 256M Video Instruct

SmolVLM2-256M-Videoは軽量マルチモーダルモデルで、動画コンテンツ分析のために設計されており、動画、画像、テキスト入力を処理しテキスト出力を生成できます。

画像生成テキスト

Transformers 英語

Smolvlm2 2.2B Instruct

SmolVLM2-2.2Bは、動画コンテンツ分析のために設計された軽量マルチモーダルモデルで、動画、画像、テキスト入力を処理しテキスト出力を生成できます。

画像生成テキスト

Transformers 英語

Qwen2.5 VL 3B Instruct FP8 Dynamic

Qwen2.5-VL-3B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、推論効率を最適化しています。

テキスト生成画像

Transformers 英語

LlamaV-o1は、複雑な視覚的推論タスクのために設計された先進的なマルチモーダル大規模言語モデルで、カリキュラム学習技術によって最適化され、多様なベンチマークテストで卓越した性能を発揮します。

テキスト生成画像英語

Microsoft Git Base

GITはTransformerベースの生成的画像テキスト変換モデルで、視覚コンテンツをテキスト記述に変換できます。

画像生成テキスト複数言語対応

Dermatech Qwen2 VL 2B

Qwen2-VL-2B-InstructをベースにLoRA技術でファインチューニングした皮膚科専門診断モデル。皮膚状態の画像を分析し、専門的な診断記述を提供可能。

画像生成テキスト

Florence 2 FT Lung Cancer Detection

Florence-2-base-ftをファインチューニングした肺がん検出モデルで、肺画像から肺がんの種類を識別

テキスト生成画像

Transformers 英語

ピーコックモデルはInstructBLIPアーキテクチャに基づくアラビア語マルチモーダル大規模言語モデルで、言語モデルにはAraLLaMAを採用しています。

画像生成テキスト

PyTorch アラビア語

Donut はTransformerベースの画像からテキストへのモデルで、画像からテキストコンテンツを抽出・生成できます。

画像生成テキスト

Paligemma 3B Chat V0.2

google/paligemma-3b-mix-448を微調整したマルチモーダル対話モデルで、マルチターン対話シーンに最適化されています

テキスト生成画像

Transformers 複数言語対応

Paligemma Vqav2

このモデルは、google/paligemma-3b-pt-224をVQAv2データセットの一部でファインチューニングしたバージョンで、視覚的質問応答タスクに特化しています。

テキスト生成画像

Llava Llama 3 8b

LLaVA-v1.5フレームワークでトレーニングされた大規模マルチモーダルモデルで、80億パラメータのMeta-Llama-3-8B-Instructを言語バックボーンとして採用し、CLIPベースの視覚エンコーダーを備えています。

画像生成テキスト

Llava NeXT Video 7B DPO

LLaVA-Next-Videoはオープンソースのマルチモーダルダイアログモデルで、大規模言語モデルをマルチモーダル指示追従データで微調整しており、ビデオとテキストのマルチモーダルインタラクションをサポートします。

テキスト生成ビデオ

UForm-Gen2-dpoは、直接選好最適化（DPO）を用いてVLFeedbackおよびLLaVA-Human-Preference-10K選好データセットで画像キャプション生成と視覚的質問応答タスクに対してアライメント訓練された小型生成視覚言語モデルです。

画像生成テキスト

Transformers 英語

MoAIは大規模な言語と視覚の混合モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。

画像生成テキスト

Llava Maid 7B DPO GGUF

LLaVAは大規模な言語と視覚のアシスタントモデルで、画像とテキストのマルチモーダルタスクを処理できます。

画像生成テキスト

Candle Llava V1.6 Mistral 7b

LLaVAは、画像に関連するテキストコンテンツを理解し生成できる視覚言語モデルです。

画像生成テキスト

Uform Gen2 Qwen 500m

UForm-Genは小型の生成的視覚言語モデルで、主に画像キャプション生成と視覚的質問応答に使用されます。

画像生成テキスト

Transformers 英語

Llava V1.6 34B Gguf

LLaVA 1.6 34Bはオープンソースのマルチモーダルチャットボットモデルで、マルチモーダル命令追従データで大規模言語モデルをファインチューニングして開発されました。画像テキストからテキスト生成タスクをサポートします。

画像生成テキスト

Llava V1.6 Vicuna 13b

LLaVAはオープンソースのマルチモーダルチャットボットで、マルチモーダル指示追従データを用いて大規模言語モデルの微調整を行っています。

画像生成テキスト

Llava V1.6 Mistral 7b

LLaVAはオープンソースのマルチモーダルチャットボットで、マルチモーダル指示追従データで大規模言語モデルをファインチューニングして訓練されています。

テキスト生成画像

MiniCPM-Vは、エンドデバイス展開に最適化された効率的で軽量なマルチモーダルモデルで、中英バイリンガルのインタラクションをサポートし、同規模のモデルを凌駕する性能を発揮します。

テキスト生成画像

InfiMMはFlamingoアーキテクチャに触発されたマルチモーダル視覚言語モデルで、最新のLLMモデルを統合し、幅広い視覚言語処理タスクに適しています。

画像生成テキスト

Transformers 英語

UForm-Gen-ChatはUForm-Genのマルチモーダルチャットファインチューニング版で、主に画像キャプション生成と視覚的質問応答タスクに使用されます。

画像生成テキスト

Transformers 英語

UForm-Genは小型の生成的視覚言語モデルで、主に画像キャプション生成と視覚的質問応答に使用されます。

画像生成テキスト

Transformers 英語

ko-deplotはGoogleのPix2Structアーキテクチャに基づく韓国語視覚的質問応答モデルで、Deplotモデルを微調整してトレーニングされ、韓国語と英語のチャート画像質問応答タスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

Ggml Llava V1.5 7b

LLaVAは視覚言語モデルで、画像に関連するテキストコンテンツを理解し生成できます。

画像生成テキスト

Liuhaotian Llava V1.5 13b GGUF

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaアーキテクチャをベースに、マルチモーダル命令追従データで微調整されています。

テキスト生成画像

Llava V1.5 7b Lora

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/VicunaモデルをGPT生成のマルチモーダル指示データで微調整してトレーニングされています。

テキスト生成画像

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを微調整し視覚能力を統合、画像とテキストのインタラクションをサポートします。

テキスト生成画像

BLIP-2は、画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキスト生成や視覚的質問応答タスクに使用されます。

画像生成テキスト

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase