モデル選定

画像テキスト理解

# 画像テキスト理解

Gemma 27B Chatml

Gemma 3はGoogleが開発した軽量で最先端のオープンソースのマルチモーダルモデルファミリーで、Geminiモデルを作成するための同じ研究と技術に基づいて構築されており、テキストと画像の入力をサポートし、テキスト出力を生成します。

画像生成テキスト

Gemma 3 4b It Qat Autoawq

Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルで、Gemini技術に基づいて構築され、テキストと画像の入力をサポートし、テキスト出力を生成します。

画像生成テキスト

Llama 4 Maverick 17B 128E

Llama 4 MaverickはMetaが開発したマルチモーダルAIモデルで、混合エキスパートアーキテクチャを採用し、テキストと画像の理解をサポート、170億の活性化パラメータと4000億の総パラメータを有しています。

テキスト生成画像

Transformers 複数言語対応

Gemma 3 1b Pt Unsloth Bnb 4bit

Gemma 3はGoogleが発表した軽量オープンモデルシリーズで、マルチモーダル入力（テキストと画像）をサポートし、128Kの大きな文脈ウィンドウを持ち、質問応答、要約などの様々なタスクに適しています。

画像生成テキスト

Transformers 英語

Gemma 3 12b It GGUF

Gemma-3-12b-it-GGUFは、Googleのオリジナルモデルgoogle/gemma-3-12b-itをベースに構築された量子化モデルで、画像テキストからテキストへのタスクに適しています。

大規模言語モデル

Qwen2 VL 7B Instruct GGUF

Qwen2-VL-7B-Instructを基にしたマルチモーダルモデルの量子化バージョンで、画像テキストからテキストタスクをサポートし、様々な量子化レベルに対応しています。

画像生成テキスト英語

Razorback 12B V0.2

Razorback 12B v0.2はPixtral 12BとUnslopNemo v3の利点を組み合わせたマルチモーダルモデルで、視覚理解と言語処理能力を備えています。

画像生成テキスト

Transformers 複数言語対応

マイクロソフトPhi-1.5アーキテクチャを基にしたビジュアルランゲージモデル、CLIPと統合して画像処理能力を実現

画像生成テキスト

Transformers 複数言語対応

GLM-Edge-V-2BはPytorchフレームワークに基づく画像テキストからテキストへのモデルで、中国語処理をサポートしています。

画像生成テキスト

Florence 2 DocVQA

これはMicrosoftのFlorence-2モデルをDocmatixデータセット（データ量5%）で学習率1e-6で1日間微調整したバージョンです

テキスト生成画像

Llava 1.6 Mistral 7b Gguf

LLaVAはオープンソースのマルチモーダルチャットボットで、マルチモーダル指示追従データでLLMをファインチューニングして訓練されています。このバージョンはGGUF量子化バージョンで、複数の量子化オプションを提供します。

テキスト生成画像

Llava-Phi2はPhi2をベースにしたマルチモーダル実装で、視覚と言語処理能力を組み合わせ、画像テキストからテキストへのタスクに適しています。

画像生成テキスト

Transformers 英語

MMAlayaは大規模言語モデルAlayaを基に開発されたマルチモーダルシステムで、大規模言語モデル、画像テキスト特徴エンコーダー、特徴変換モジュールの3つのコアコンポーネントを含みます。

画像生成テキスト

Llava V1.5 13B AWQ

LLaVAはオープンソースのマルチモーダルチャットボットで、GPTが生成したマルチモーダル命令追従データを用いてLLaMA/Vicunaをファインチューニングしてトレーニングされています。

テキスト生成画像

BakLLaVA-1はMistral 7Bモデルをベースに、LLaVA 1.5アーキテクチャで強化されたマルチモーダルモデルで、複数のベンチマークテストにおいてLlama 2 13Bの性能を上回っています。

テキスト生成画像

Transformers 英語

Llava Pretrain Vicuna 7b V1.3

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを基にGPTが生成したマルチモーダル指示追従データでファインチューニングされています。

テキスト生成画像

Git Base Textvqa

microsoft/git-base-textvqaを基にtextvqaデータセットでファインチューニングした視覚質問応答モデルで、テキストを含む画像の質問応答タスクに優れています

大規模言語モデル

Transformers その他

Mengzi Oscar Base Caption

中国語マルチモーダル事前学習モデル孟子-オスカーを基に、AIC-ICC中国語画像キャプションデータセットでファインチューニングされた中国語マルチモーダル画像キャプションモデル

画像生成テキスト

Transformers 中国語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase