モデル選定

マルチモーダル画像理解

# マルチモーダル画像理解

Pixtral 12b GGUF

Mistral-Communityが提供するマルチモーダル大規模モデルで、画像とテキスト処理をサポートし、128kのコンテキスト長と可変画像サイズ処理能力を備えています。

画像生成テキスト

lmstudio-community

Gemma 3 27B It Qat GGUF

Googleが提供するGemma 3 27B ITモデルは、様々なテキスト生成や画像理解タスクに適しており、128kトークンのコンテキスト長とマルチモーダル画像処理をサポートします。

画像生成テキスト

lmstudio-community

Gemma 3 12b It Qat 8bit

Google Gemma 3 12Bモデルを基に変換された8ビット量子化バージョンで、画像テキストからテキストへのタスクに適しています。

画像生成テキスト

Transformers その他

Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct は、画像とテキストの共同理解と生成タスクをサポートするマルチモーダル視覚言語モデルです。

画像生成テキスト英語

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct はマルチモーダルな視覚言語モデルで、画像テキスト生成タスクをサポートします。

画像生成テキスト英語

Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct はマルチモーダルな視覚言語モデルで、画像とテキストのインタラクティブな生成タスクをサポートします。

画像生成テキスト英語

Gemma 3 12b It Gguf

Gemma-3はGoogleが提供する軽量マルチモーダルオープンモデルで、テキストと画像の入力に対応し、テキスト出力を生成します。Geminiモデルの研究と技術に基づいて構築されており、128Kの大規模コンテキストウィンドウを備え、140以上の言語をサポートしています。

画像生成テキスト

Gemma 3 4b It Gguf

Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルで、画像とテキスト入力をサポートし、テキスト出力を生成します。

画像生成テキスト

Asagi-14Bは大規模な日本語視覚言語モデル（VLM）で、幅広い日本語データセットでトレーニングされ、多様なデータソースを統合しています。

画像生成テキスト

Transformers 日本語

Qwen2 VL 2B Instruct GGUF

Qwen2-VL-2B-Instruct はマルチモーダルな視覚言語モデルで、画像テキスト生成タスクをサポートし、Qwen2 アーキテクチャに基づいており、パラメータ規模は2Bです。

画像生成テキスト英語

Llama3 Chat Vector Kor Llava V02

これはLlama3アーキテクチャに基づく韓国語マルチモーダルモデルで、画像理解と韓国語対話をサポートします。

画像生成テキスト

Transformers 複数言語対応

Turkish LLaVA V0.1 Q4 K M GGUF

Turkish-LLaVA-v0.1-Q4_K_M-GGUF はトルコ語のビジュアル言語モデルで、画像テキストからテキストへの処理タスクをサポートしています。

画像生成テキストその他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase