Model Selection

画像テキスト生成

# 画像テキスト生成

Gemma 3 12b It Quantized.w8a8

google/gemma-3-12b-itをベースとしたINT8量子化バージョンで、視覚テキスト入力とテキスト出力をサポートし、高効率推論デプロイに適しています。

画像生成テキスト

Xlangai Jedi 3B 1080p GGUF

Jedi-3B-1080pはxlangaiによって開発された3Bパラメータモデルで、llama.cppによる量子化処理が施されており、画像テキスト生成タスクに適しています。

大規模言語モデル English

Medgemma 4b It GGUF

medgemma-4b-itは医療分野に特化した多モーダルモデルで、画像とテキストの入力を処理でき、放射線学や臨床推論などのさまざまな医療シーンに適用できます。

テキスト生成画像

Dimpleは自己回帰と拡散トレーニングのパラダイムを組み合わせた最初の離散拡散マルチモーダル大規模言語モデル（DMLLM）であり、LLaVA-NEXTと同じデータセットでトレーニング後、LLaVA-NEXT-7Bを3.9%上回りました。

画像生成テキスト

Transformers English

Magma-8BはGGUF形式の画像テキストからテキストへの変換モデルで、マルチモーダルタスク処理に適しています。

画像生成テキスト

Llava 1.5 7b Hf Q4 K M GGUF

このモデルはllava-hf/llava-1.5-7b-hfから変換されたGGUF形式モデルで、画像テキスト生成タスクをサポートします。

画像生成テキスト English

Qwen Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instructのマルチモーダル大規模言語モデル量子化バージョン、画像テキストからテキストタスクをサポート、高精度から低メモリ要求までの多様な量子化レベルに対応。

テキスト生成画像 English

Qwen2.5-VL-7B-Instruct は Qwen2.5 アーキテクチャに基づくマルチモーダルモデルで、画像とテキストの共同処理をサポートし、視覚言語タスクに適しています。

画像生成テキスト

Safetensors English

Mistral Community Pixtral 12b GGUF

これはpixtral-12bモデルの量子化バージョンで、llama.cppを使用して量子化されており、画像テキストからテキストへのタスクをサポートします。

UI TARS 1.5 7B 4bit

UI-TARS-1.5-7B-4bitはマルチモーダルモデルで、画像テキストからテキストへの変換タスクに特化しており、英語をサポートしています。

画像生成テキスト

Transformers Supports Multiple Languages

Gemma 3 1b It Qat

Gemma 3はGoogleが開発した軽量マルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。このモデルは128Kの大きなコンテキストウィンドウと140種類以上の言語のマルチ言語サポートを備えています。

画像生成テキスト

Internvl3 8B Hf

InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、動画、テキスト入力をサポートします。

画像生成テキスト

Transformers Other

Internvl3 2B Hf

InternVL3-2BはHugging Face Transformersライブラリに基づいて実装されたマルチモーダル大規模言語モデルで、画像、ビデオ、テキスト処理などのマルチモーダルタスクで優れた性能を発揮し、さまざまな入力方式と効率的なバッチ推論をサポートします。

画像生成テキスト

Transformers Other

Internvl3 1B Hf

InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、優れたマルチモーダル知覚と推論能力を示し、画像、動画、テキスト入力をサポートします。

画像生成テキスト

Transformers Other

Kimi VL A3B Thinking 8bit

Kimi-VL-A3B-Thinking-8bitは、MLX形式に変換されたマルチモーダル視覚言語モデルで、画像テキストからテキストへの生成タスクをサポートしています。

画像生成テキスト

Transformers Other

Gemma 3 27b It Qat Bf16

Gemma 3 27B IT QAT BF16 は Google がリリースした Gemma シリーズモデルのバージョンで、量子化認識トレーニング（QAT）を経て BF16 形式に変換され、MLX フレームワークに適しています。

画像生成テキスト

Gemma 3 27b It Qat 6bit

これはGoogle Gemma 3 27Bモデルに基づく量子化バージョンで、6ビット量子化をサポートし、画像テキストからテキストへのタスクに適しています。

画像生成テキスト

Transformers Other

Gemma 3 27b It Qat 3bit

このモデルはgoogle/gemma-3-27b-it-qat-q4_0-unquantizedからMLXフォーマットに変換された3ビット量子化バージョンで、画像テキストからテキストタスクに適しています。

画像生成テキスト

Transformers Other

Gemma 3 27b It Qat 4bit

Gemma 3 27B IT QAT 4bit はGoogleのオリジナルモデルから変換されたMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers Other

google/gemma-3-4b-itモデルをベースに訓練されたマルチモーダルモデルで、数学、プログラミング、科学、パズル解決分野の高品質データ処理に特化しています。

画像生成テキスト

Transformers English

Gemma 3 4b It GPTQ 4b 128g

gemma-3-4b-itモデルを基にINT4量子化を施したバージョンで、ストレージと計算リソースの需要を大幅に削減

画像生成テキスト

Gemma 3 12b It Qat Int4 Unquantized

Gemma 3はGoogleが提供する軽量マルチモーダルオープンモデルで、テキストと画像の入力をサポートし、テキスト出力を生成可能。128Kの大規模コンテキストウィンドウと多言語能力を備えています。

画像生成テキスト

Qwen2.5 VL 7B Instruct Gptqmodel Int8

Qwen2.5-VL-7B-Instructモデルに基づいてGPTQ-INT8量子化を行った視覚言語モデル

画像生成テキスト

Transformers Supports Multiple Languages

Gemma 3 12b It Qat Q4 0 Unquantized

Gemma 3はGoogleがGemini技術を基に開発した軽量オープンソースマルチモーダルモデルシリーズで、テキストと画像の入力を受け取りテキスト出力を生成します。12Bバージョンは指示チューニングと量子化対応トレーニング(QAT)を経ており、リソースが限られた環境での展開に適しています。

テキスト生成画像

Google Gemma 3 27b It

Gemma 3はGoogleが開発した軽量で最先端のオープンモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。これはマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。

画像生成テキスト

Gemma 3 27b It Qat Q4 0 Gguf

Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、テキストと画像の入力をサポートし、テキスト出力を生成できます。このバージョンは270億パラメータのインストラクションチューニングモデルで、量子化認識トレーニング技術を採用し、メモリ要件が低いながらもオリジナル版に近い品質を維持しています。

画像生成テキスト

Vora 7B Instruct

VoRAは7Bパラメータの視覚-言語モデルで、画像テキストからテキストへの変換タスクに特化しています。

画像生成テキスト

VoRAは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。

画像生成テキスト

Qwen2.5 VL 7B Instruct Q4 K M GGUF

これはQwen2.5-VL-7B-InstructモデルのGGUF量子化バージョンで、マルチモーダルタスクに適しており、画像とテキスト入力をサポートします。

画像生成テキスト English

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct はマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。

画像生成テキスト English

Heron NVILA Lite 1B

NVILA-Liteアーキテクチャでトレーニングされた日本語視覚言語モデル、日本語と英語の画像テキストインタラクションをサポート

画像生成テキスト

Safetensors Supports Multiple Languages

Qwen.qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instructは通義千問チームによって開発された大規模ビジュアル言語モデルで、画像とテキストのマルチモーダル理解と生成をサポートします。

画像生成テキスト

Gemma 3 27b It Int4 Awq

GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究と技術に基づいています。27Bバージョンはマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。

テキスト生成画像

Gemma 3 4b It Int4 Awq

GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究技術に基づいて構築されています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。

テキスト生成画像

Smoldocling 256M Preview Mlx Fp16

このモデルはds4sd/SmolDocling-256M-previewからMLX形式に変換された視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers English

Gemma 3 4b Pt Qat Q4 0 Gguf

Gemma 3はGoogleが提供する軽量オープンモデルシリーズで、Geminiと同じ技術を基に構築されており、マルチモーダル入力とテキスト出力をサポートします。

画像生成テキスト

Google.gemma 3 12b Pt GGUF

これはgoogle/gemma-3-12b-ptに基づく量子化バージョンのモデルで、量子化技術を通じて大規模モデルをより使いやすくすることを目的としています。

大規模言語モデル

Gemma 3 27b It GGUF

Gemma-3-27b-it-GGUFはGoogleのGemma-3-27b-itモデルを量子化処理したバージョンで、画像テキストからテキストへのタスクに適しています。

テキスト生成画像

Gemma 3 4b It GGUF

Gemma-3-4b-itはGoogleが発表した軽量級言語モデルで、Gemmaアーキテクチャに基づいており、テキスト生成タスクに適しています。

大規模言語モデル

Gemma 3 27b It Mlx

これはGoogle Gemma 3 27B ITモデルを変換したMLXバージョンで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers English

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase