モデル選定

画像テキストインタラクション

# 画像テキストインタラクション

Smolvlm Instruct GGUF

SmolVLMはコンパクトなオープンソースのマルチモーダルモデルで、画像とテキストの入力を受け取り、テキスト出力を生成することができます。効率性を重視して設計されており、デバイス端のアプリケーションに適しています。

画像生成テキスト

Transformers 英語

Gemma 3 4B It Qat GGUF

Googleが開発したGemma 3 4B ITモデルは、マルチモーダル入力と長文コンテキスト処理をサポートし、テキスト生成や画像理解タスクに適しています。

画像生成テキスト

lmstudio-community

Gemma 3 27b It Int4 Gguf

Gemma 3はGoogleが提供する軽量で先進的なオープンモデルファミリーで、Geminiモデルと同じ研究技術に基づいて構築されています。テキスト/画像入力とテキスト出力をサポートし、事前学習済みと命令チューニングの2種類の重みバージョンを提供します。

画像生成テキスト

Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instructは32Bパラメータ規模のマルチモーダル視覚言語モデルで、画像とテキストの共同理解と生成タスクをサポートします。

画像生成テキスト英語

Gemma 3 27b It Qat Q4 0 Gguf

GemmaはGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、テキストと画像の入力に対応しテキストを出力します。128Kの大規模コンテキストウィンドウと140以上の言語をサポートしています。

画像生成テキスト

Qwen2 VL 2B Instruct

Qwen2-VL-2B-Instruct はマルチモーダル視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase