モデル選定

画像理解

# 画像理解

Gemma 3 27b It Qat 8bit

Gemma 3 27B IT QAT 8bit はGoogleのGemma 3 27Bモデルを変換したMLX形式のモデルで、画像からテキストへのタスクをサポートします。

画像生成テキスト

Transformers その他

Qwen2.5 VL 7B Instruct GPTQ Int4

Qwen2.5-VL-7B-Instruct-GPTQ-Int4はQwen2.5-VL-7B-Instructモデルを非公式にGPTQ-Int4量子化したバージョンで、画像からテキストへのマルチモーダルタスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

Qwen2 VL 2B GGUF

Qwen2-VL-2Bはビジュアル言語モデルで、GGUF形式の量子化バージョンを提供し、さまざまなシーンに適用できます。

テキスト生成画像

Transformers 英語

Internlm Xcomposer2d5 Ol 7b

InternLM-XComposer2.5-OLは、長時間ストリーミング映像と音声のインタラクションをサポートする全方位マルチモーダルシステムです。

テキスト生成画像

Llava Critic 7b Hf

これはtransformersと互換性のある視覚言語モデルで、画像理解とテキスト生成能力を備えています

テキスト生成画像

LLaVA-Saiga-8bはIlyaGusev/saiga_llama3_8bモデルを基に開発された視覚-言語モデル（VLM）で、主にロシア語タスクに適応していますが、英語処理能力も保持しています。

画像生成テキスト

Transformers 複数言語対応

Paligemma Longprompt V1 Safetensors

実験的な視覚モデルで、キーワードタグと長文記述を融合して画像プロンプトを生成

画像生成テキスト

Llava Calm2 Siglip

llava-calm2-siglip は実験的な視覚言語モデルで、画像に関する質問に日本語と英語で回答できます。

画像生成テキスト

Transformers 複数言語対応

Paligemma 3B Chat V0.2

google/paligemma-3b-mix-448を微調整したマルチモーダル対話モデルで、マルチターン対話シーンに最適化されています

テキスト生成画像

Transformers 複数言語対応

Paligemma Vqav2

このモデルは、google/paligemma-3b-pt-224をVQAv2データセットの一部でファインチューニングしたバージョンで、視覚的質問応答タスクに特化しています。

テキスト生成画像

Llava Llama 3 8b V1 1 GGUF

Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像からテキストへの変換タスクをサポート

画像生成テキスト

Llava Phi 3 Mini Hf

Phi-3-mini-4k-instructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像からテキストへの変換タスクをサポート

画像生成テキスト

Blip Finetuned Fashion

このモデルはSalesforce/blip-vqa-baseをファインチューニングした視覚質問応答モデルで、ファッション分野に特化しています

テキスト生成画像

Mixtral AI Vision 128k 7b

視覚と言語能力を結合したマルチモーダルモデルで、マージ手法により画像とテキストのインタラクション機能を実現します。

画像生成テキスト

Transformers 英語

Eris PrimeV3 Vision 7B

Eris Prime V2は7Bパラメータ規模のマルチモーダル言語モデルで、視覚機能をサポートし、Koboldcppとの併用が必要です。

テキスト生成画像

ChaoticNeutrals

Vit Medium Patch16 Clip 224.tinyclip Yfcc15m

ViTアーキテクチャに基づくCLIPモデル、ゼロショット画像分類タスク用

Candle Llava V1.6 Mistral 7b

LLaVAは、画像に関連するテキストコンテンツを理解し生成できる視覚言語モデルです。

画像生成テキスト

TeCoAはOpenAI CLIPで初期化された視覚言語モデルで、教師あり対抗微調整によりロバスト性を向上

テキスト生成画像

Llava V1.6 Vicuna 13b Gguf

LLaVAはTransformerアーキテクチャに基づくオープンソースのマルチモーダルチャットボットで、量子化技術により様々なサイズと品質のバランスを取ったモデルバージョンを提供します。

画像生成テキスト

Ggml Llava V1.5 7b

LLaVAは視覚言語モデルで、画像に関連するテキストコンテンツを理解し生成できます。

画像生成テキスト

Pix2struct Vizwizvqa Base

これはApache-2.0ライセンスに基づく視覚的質問応答モデルで、英語をサポートし、視覚に関連する質問応答タスクに特化しています。

テキスト生成画像

Transformers 英語

Llava V1.5 13B GPTQ

Llava v1.5 13BはHaotian Liuによって開発されたマルチモーダルモデルで、視覚と言語の能力を組み合わせ、画像とテキストに基づくコンテンツを理解し生成できます。

テキスト生成画像

Finetuned Git Large Chest Xrays

MITライセンスに基づく視覚言語モデルで、画像からテキスト記述を生成することに特化しています。

Transformers 複数言語対応

Mplug Owl Llama 7b

mPLUG-OwlはLLaMA-7Bアーキテクチャに基づくマルチモーダル大規模言語モデルで、画像理解とテキスト生成タスクをサポートします。

画像生成テキスト

Transformers 英語

Taiyi BLIP 750M Chinese

画像の内容をテキスト記述に変換することに特化したモデルで、中国語処理をサポートしています。

Transformers 中国語

未知のデータセットでファインチューニングされたBEiTベースモデル、具体的な用途と性能情報は現在利用不可

大規模言語モデル

Upernet Convnext Large

UperNetは、ピクセルレベルのセマンティックラベル予測のためのConvNeXt大型バックボーンネットワークを組み合わせたセマンティックセグメンテーションフレームワークです。

画像セグメンテーション

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase