モデル選定

画像テキスト生成

# 画像テキスト生成

Gemma 3 12b It Quantized.w8a8

google/gemma-3-12b-itをベースとしたINT8量子化バージョンで、視覚テキスト入力とテキスト出力をサポートし、高効率推論デプロイに適しています。

画像生成テキスト

Xlangai Jedi 3B 1080p GGUF

Jedi-3B-1080pはxlangaiによって開発された3Bパラメータモデルで、llama.cppによる量子化処理が施されており、画像テキスト生成タスクに適しています。

大規模言語モデル英語

Medgemma 4b It GGUF

medgemma-4b-itは医療分野に特化した多モーダルモデルで、画像とテキストの入力を処理でき、放射線学や臨床推論などのさまざまな医療シーンに適用できます。

テキスト生成画像

Dimpleは自己回帰と拡散トレーニングのパラダイムを組み合わせた最初の離散拡散マルチモーダル大規模言語モデル（DMLLM）であり、LLaVA-NEXTと同じデータセットでトレーニング後、LLaVA-NEXT-7Bを3.9%上回りました。

画像生成テキスト

Transformers 英語

Magma-8BはGGUF形式の画像テキストからテキストへの変換モデルで、マルチモーダルタスク処理に適しています。

画像生成テキスト

Llava 1.5 7b Hf Q4 K M GGUF

このモデルはllava-hf/llava-1.5-7b-hfから変換されたGGUF形式モデルで、画像テキスト生成タスクをサポートします。

画像生成テキスト英語

Qwen Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instructのマルチモーダル大規模言語モデル量子化バージョン、画像テキストからテキストタスクをサポート、高精度から低メモリ要求までの多様な量子化レベルに対応。

テキスト生成画像英語

Qwen2.5-VL-7B-Instruct は Qwen2.5 アーキテクチャに基づくマルチモーダルモデルで、画像とテキストの共同処理をサポートし、視覚言語タスクに適しています。

画像生成テキスト

Safetensors 英語

Mistral Community Pixtral 12b GGUF

これはpixtral-12bモデルの量子化バージョンで、llama.cppを使用して量子化されており、画像テキストからテキストへのタスクをサポートします。

UI TARS 1.5 7B 4bit

UI-TARS-1.5-7B-4bitはマルチモーダルモデルで、画像テキストからテキストへの変換タスクに特化しており、英語をサポートしています。

画像生成テキスト

Transformers 複数言語対応

Gemma 3 1b It Qat

Gemma 3はGoogleが開発した軽量マルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。このモデルは128Kの大きなコンテキストウィンドウと140種類以上の言語のマルチ言語サポートを備えています。

画像生成テキスト

Internvl3 8B Hf

InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、動画、テキスト入力をサポートします。

画像生成テキスト

Transformers その他

Internvl3 2B Hf

InternVL3-2BはHugging Face Transformersライブラリに基づいて実装されたマルチモーダル大規模言語モデルで、画像、ビデオ、テキスト処理などのマルチモーダルタスクで優れた性能を発揮し、さまざまな入力方式と効率的なバッチ推論をサポートします。

画像生成テキスト

Transformers その他

Internvl3 1B Hf

InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、優れたマルチモーダル知覚と推論能力を示し、画像、動画、テキスト入力をサポートします。

画像生成テキスト

Transformers その他

Kimi VL A3B Thinking 8bit

Kimi-VL-A3B-Thinking-8bitは、MLX形式に変換されたマルチモーダル視覚言語モデルで、画像テキストからテキストへの生成タスクをサポートしています。

画像生成テキスト

Transformers その他

Gemma 3 27b It Qat Bf16

Gemma 3 27B IT QAT BF16 は Google がリリースした Gemma シリーズモデルのバージョンで、量子化認識トレーニング（QAT）を経て BF16 形式に変換され、MLX フレームワークに適しています。

画像生成テキスト

Gemma 3 27b It Qat 3bit

このモデルはgoogle/gemma-3-27b-it-qat-q4_0-unquantizedからMLXフォーマットに変換された3ビット量子化バージョンで、画像テキストからテキストタスクに適しています。

画像生成テキスト

Transformers その他

Gemma 3 27b It Qat 4bit

Gemma 3 27B IT QAT 4bit はGoogleのオリジナルモデルから変換されたMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers その他

google/gemma-3-4b-itモデルをベースに訓練されたマルチモーダルモデルで、数学、プログラミング、科学、パズル解決分野の高品質データ処理に特化しています。

画像生成テキスト

Transformers 英語

Gemma 3 4b It GPTQ 4b 128g

gemma-3-4b-itモデルを基にINT4量子化を施したバージョンで、ストレージと計算リソースの需要を大幅に削減

画像生成テキスト

Gemma 3 12b It Qat Int4 Unquantized

Gemma 3はGoogleが提供する軽量マルチモーダルオープンモデルで、テキストと画像の入力をサポートし、テキスト出力を生成可能。128Kの大規模コンテキストウィンドウと多言語能力を備えています。

画像生成テキスト

Gemma 3 12b It Qat Q4 0 Unquantized

Gemma 3はGoogleがGemini技術を基に開発した軽量オープンソースマルチモーダルモデルシリーズで、テキストと画像の入力を受け取りテキスト出力を生成します。12Bバージョンは指示チューニングと量子化対応トレーニング(QAT)を経ており、リソースが限られた環境での展開に適しています。

テキスト生成画像

Gemma 3 27b It Qat Q4 0 Gguf

Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、テキストと画像の入力をサポートし、テキスト出力を生成できます。このバージョンは270億パラメータのインストラクションチューニングモデルで、量子化認識トレーニング技術を採用し、メモリ要件が低いながらもオリジナル版に近い品質を維持しています。

画像生成テキスト

Vora 7B Instruct

VoRAは7Bパラメータの視覚-言語モデルで、画像テキストからテキストへの変換タスクに特化しています。

画像生成テキスト

VoRAは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。

画像生成テキスト

Qwen2.5 VL 7B Instruct Q4 K M GGUF

これはQwen2.5-VL-7B-InstructモデルのGGUF量子化バージョンで、マルチモーダルタスクに適しており、画像とテキスト入力をサポートします。

画像生成テキスト英語

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct はマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。

画像生成テキスト英語

Heron NVILA Lite 1B

NVILA-Liteアーキテクチャでトレーニングされた日本語視覚言語モデル、日本語と英語の画像テキストインタラクションをサポート

画像生成テキスト

Safetensors 複数言語対応

Gemma 3 27b It Int4 Awq

GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究と技術に基づいています。27Bバージョンはマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。

テキスト生成画像

Gemma 3 4b It Int4 Awq

GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究技術に基づいて構築されています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。

テキスト生成画像

Smoldocling 256M Preview Mlx Fp16

このモデルはds4sd/SmolDocling-256M-previewからMLX形式に変換された視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers 英語

Gemma 3 4b Pt Qat Q4 0 Gguf

Gemma 3はGoogleが提供する軽量オープンモデルシリーズで、Geminiと同じ技術を基に構築されており、マルチモーダル入力とテキスト出力をサポートします。

画像生成テキスト

Gemma 3 27b It Mlx

これはGoogle Gemma 3 27B ITモデルを変換したMLXバージョンで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

これは画像テキストからテキストへの変換モデルで、画像とテキスト入力を処理し、対応するテキスト出力を生成できます。

テキスト生成画像

Bytedance Research.ui TARS 72B SFT GGUF

バイトダンス研究チームが発表した72Bパラメータ規模のマルチモーダル基礎モデルで、画像テキストからテキストへの変換タスクに特化

画像生成テキスト

Metaが発表したカメレオンシリーズ7Bパラメータ規模のマルチモーダルモデルで、画像テキストからテキストへのタスクをサポート

大規模言語モデル

Toriigate V0.4 7B I1 GGUF

これはMinthy/ToriiGate-v0.4-7Bモデルに対して重み/重要度行列量子化を施したバージョンで、様々なニーズに対応する複数の量子化オプションを提供します。

画像生成テキスト英語

Internvl2 5 4B AWQ

InternVL2_5-4B-AWQ は autoawq を使用して InternVL2_5-4B を AWQ 量子化したバージョンで、多言語およびマルチモーダルタスクをサポートします。

画像生成テキスト

Transformers その他

Aya Vision 8Bはオープンウェイトの80億パラメータ多言語視覚言語モデルで、23言語の視覚と言語タスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

GemmaはGoogleが提供する軽量で最先端のオープンソースマルチモーダルモデルシリーズで、Geminiモデルの技術を基に構築されており、テキストと画像の入力をサポートし、テキスト出力を生成します。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase