モデル選定

マルチモーダルモデル

# マルチモーダルモデル

SpaceOm-GGUFは、視覚質問応答タスクに特化したマルチモーダルモデルで、空間推論において優れた性能を発揮します。

テキスト生成画像英語

PP-Chart2TableはPaddlePaddleチームによって開発されたマルチモーダルモデルで、中英語のグラフ解析に特化しており、グラフを効率的にデータテーブルに変換することができます。

画像生成テキスト複数言語対応

Gemma 3 4b It Qat GGUF

Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルを作成したのと同じ研究と技術に基づいています。このモデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成できます。

テキスト生成画像英語

Qwen2 VL 7B Captioner Relaxed GGUF

このモデルはQwen2-VL-7B-Captioner-RelaxedをGGUF形式に変換したバージョンで、画像からテキストへのタスクに最適化されており、llama.cppやKoboldcppなどのツールで実行可能です。

画像生成テキスト英語

Llm Jp Clip Vit Base Patch16

日本語CLIPモデル、OpenCLIPフレームワークで訓練され、ゼロショット画像分類タスクをサポート

テキスト生成画像日本語

Vit GPT2 Image Captioning

ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対して自然言語の説明を生成できます。

画像生成テキスト

Vit GPT2 Image Captioning

ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対して自然言語の説明を生成できます。

画像生成テキスト

Florence 2 Large TableDetection

Florence-2モデルを微調整したマルチモーダルな表検出モデルで、画像内の表領域を正確に位置特定できます。

画像生成テキスト

Paligemma Longprompt V1 Safetensors

実験的な視覚モデルで、キーワードタグと長文記述を融合して画像プロンプトを生成

画像生成テキスト

Paligemma 3b Mix 448 Ft TableDetection

google/paligemma-3b-mix-448をファインチューニングしたマルチモーダル表検出モデルで、画像内の表領域を識別するために特化

画像生成テキスト

Paligemma Vqav2

このモデルは、google/paligemma-3b-pt-224をVQAv2データセットの一部でファインチューニングしたバージョンで、視覚的質問応答タスクに特化しています。

テキスト生成画像

Paligemma Rich Captions

PaliGemma-3bモデルをDocCIデータセットでファインチューニングした画像キャプション生成モデル。200-350文字の詳細な説明文を生成可能で、幻覚現象を低減

画像生成テキスト

Transformers 英語

Compare2Scoreは画像品質評価に使用されるモデルで、特定のアルゴリズムを通じて画像に品質スコアを付けます。

画像の拡張

CheXagentは胸部X線読影に特化した基礎モデルで、医療画像解析を支援することを目的としています。

画像生成テキスト

Transformers その他

Vit Base Patch16 224 Turkish Gpt2 Medium

これはViTとトルコ語GPT-2に基づくビジュアルエンコーダ-デコーダモデルで、トルコ語の画像キャプションを生成するために使用されます。

画像生成テキスト

Transformers その他

Vit Medium Patch16 Clip 224.tinyclip Yfcc15m

ViTアーキテクチャに基づくCLIPモデル、ゼロショット画像分類タスク用

Xrayclip Vit L 14 Laion2b S32b B82k

CheXagentは胸部X線画像の自動分析と解釈に特化した基礎モデルです。

画像生成テキスト

Siglip Large Patch16 384

SigLIPはWebLiデータセットで事前学習されたマルチモーダルモデルで、改良されたSigmoid損失関数を採用しており、ゼロショット画像分類や画像テキスト検索タスクに適しています。

画像生成テキスト

Siglip Large Patch16 256

SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数により性能を向上

画像生成テキスト

Siglip Base Patch16 512

SigLIPはWebLiデータセットで事前学習された視覚-言語モデルで、改良されたシグモイド損失関数を採用し、画像分類と画像テキスト検索タスクで優れた性能を発揮します。

テキスト生成画像

Chinese Clip Vit Large Patch14

中国語CLIPモデル、Vision Transformerアーキテクチャに基づき、画像とテキストのクロスモーダル理解と生成をサポート。

テキスト生成画像

ChartLlamaはLLaVA-1.5アーキテクチャに基づくマルチモーダルモデルで、グラフ理解と分析タスクに特化しています。

大規模言語モデル

Transformers 英語

Siglip Base Patch16 224

SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたSigmoid損失関数を採用し、画像-テキストマッチングタスクを最適化

画像生成テキスト

Blip Image Captioning Base Test Sagemaker Tops 3

このモデルはSalesforceのBLIP画像キャプション生成ベースモデルをSageMakerプラットフォームで微調整したバージョンで、主に画像キャプション生成タスクに使用されます。

画像生成テキスト

Swin Aragpt2 Image Captioning V3

Swin TransformerとAraGPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対してテキスト記述を生成できます。

画像生成テキスト

Saved Model Git Base

microsoft/git-baseを画像フォルダデータセットでファインチューニングした視覚言語モデルで、主に画像キャプション生成タスクに使用されます

画像生成テキスト

Transformers その他

Blip2 Flan T5 Xl Sharded

これはBLIP-2モデルのシャーディングバージョンで、Flan T5-xlを使用して画像からテキストへのタスク（画像キャプションや視覚的質問応答など）を実現します。シャーディング処理により、低メモリ環境でもロード可能です。

画像生成テキスト

Transformers 英語

VisionEncoderDecoderアーキテクチャに基づく画像キャプション生成モデルで、入力画像を自然言語の説明に変換できます。

画像生成テキスト

Clip Vit Large Patch14 Ko

知識蒸留を用いて訓練された韓国語CLIPモデルで、韓国語と英語のマルチモーダル理解をサポート

テキスト生成画像

Transformers 韓国語

Layoutlmv3 Finetuned Wildreceipt

LayoutLMv3-baseモデルをWildReceipt領収書データセットでファインチューンしたバージョンで、領収書のキー情報抽出タスクに使用されます

Theivaprakasham

ViT-GPT2アーキテクチャに基づく視覚-言語モデルで、画像からテキストへの変換タスクに使用

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase