モデル選定

マルチモーダル視覚言語

# マルチモーダル視覚言語

Qwen2.5 VL 7B Instruct Gemlite Ao A8w8

これはA8W8量子化されたマルチモーダル大規模言語モデルで、Qwen2.5-VL-7B-Instructに基づいており、視覚と言語のタスクをサポートします。

画像生成テキスト

Llava 1.5 13b Hf I1 GGUF

このプロジェクトは、llava-1.5-13b-hfモデルの重み/行列量子化バージョンを提供し、さまざまな量子化タイプが選択可能で、異なるシナリオでの使用ニーズに対応します。

テキスト生成画像

Transformers 英語

Spaceqwen2.5 VL 3B Instruct I1 GGUF

SpaceQwen2.5-VL-3B-Instructは3Bパラメータの視覚言語モデルで、空間推論とマルチモーダルタスクに特化しています。

テキスト生成画像英語

VLM R1 Qwen2.5VL 3B OVD 0321

Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。

テキスト生成画像

Safetensors 英語

イーグル2は高性能な視覚言語モデルファミリーで、データ戦略とトレーニング手法の透明性に重点を置き、競争力のある視覚言語モデルのオープンソースコミュニティ開発を推進することを目的としています。

画像生成テキスト

Transformers その他

Eagle2はNVIDIAが開発した高性能視覚言語モデルファミリーで、データ戦略とトレーニング手法を通じてオープンソースの視覚言語モデルの性能を向上させることに焦点を当てています。Eagle2-2Bはこのシリーズの軽量モデルで、強力な性能を維持しながら優れた効率性と速度を実現しています。

テキスト生成画像

Transformers その他

Qwen2 VL 7B GGUF

Qwen2-VL-7Bは視覚言語モデルで、複数の量子化バージョンのGGUF形式のモデルファイルを提供し、llama.cppでの使用に適しています。

テキスト生成画像

Transformers 英語

Minivla Libero90 Prismatic

MiniVLAは10億パラメータ規模の視覚言語モデルで、プリズム視覚言語モデルプロジェクトのコードベースと互換性があり、ロボット技術やマルチモーダルタスクに適しています。

画像生成テキスト

Transformers 英語

Paligemma2 28b Mix 224

PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を統合し、多言語画像テキストインタラクションタスクをサポートします。

画像生成テキスト

Paligemma2 28b Mix 448

PaliGemma 2はGemma 2ベースの視覚言語モデルで、画像+テキスト入力をサポートし、テキスト応答を出力します。様々な視覚言語タスクに適しています。

画像生成テキスト

Paligemma2 10b Pt 896

PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキストの入力からテキスト出力を生成可能

画像生成テキスト

Paligemma2 10b Pt 448

PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキスト入力をサポートしてテキスト出力を生成します。

画像生成テキスト

Paligemma2 3b Pt 896

PaliGemma 2はマルチモーダル視覚言語モデルで、画像とテキストの入力を組み合わせてテキスト出力を生成し、多言語をサポートし、さまざまな視覚言語タスクに適しています。

画像生成テキスト

Paligemma2 3b Pt 448

PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。

画像生成テキスト

Paligemma2 3b Pt 224

PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2言語モデルとSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。

画像生成テキスト

Paligemma2 10b Mix 224

PaliGemma 2はGemma 2をベースにした視覚言語モデルで、画像とテキストの入力をサポートし、テキスト出力を生成します。様々な視覚言語タスクに適しています。

画像生成テキスト

Paligemma2 3b Mix 448

PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを生成する出力を行い、さまざまな視覚言語タスクに適しています。

画像生成テキスト

Paligemma2 3b Ft Docci 448

PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。

画像生成テキスト

Llama 3.1 8B Dragonfly V2

トンボはLlama 3.1をベースに命令微調整で訓練されたマルチモーダル視覚言語モデルで、画像とテキストの統合的理解と生成をサポートします

画像生成テキスト英語

togethercomputer

OpenVLA v0.1 7Bはオープンソースの視覚-言語-動作モデルで、Open X-Embodimentデータセットでトレーニングされ、さまざまなロボット制御をサポートします。

テキスト生成画像

Transformers 英語

Paligemma 3b Pt 448

PaliGemmaはSigLIP視覚モデルとGemma言語モデルを基盤とした軽量で多機能な視覚言語モデルで、多言語の画像テキスト相互作用タスクをサポートします。

画像生成テキスト

Paligemma 3b Pt 896

PaliGemmaは、画像とテキストの入力をサポートし、テキスト出力を生成する多機能の軽量級視覚言語モデル(VLM)で、多言語能力を備えています。

画像生成テキスト

Paligemma 3b Ft Nlvr2 224

PaliGemmaは、多言語の入出力をサポートする、画像キャプションや視覚的質問応答などのさまざまな視覚言語タスクに長けた、多機能の軽量級視覚言語モデル（VLM）です。

テキスト生成画像

Paligemma 3b Ft Refcoco Seg 896

PaliGemmaはGoogleが開発した軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基盤としており、多言語テキスト生成と視覚理解タスクをサポートします。

画像生成テキスト

Paligemma 3b Mix 224

PaliGemmaは多機能で軽量な視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力をサポートし、テキスト結果を出力します。

テキスト生成画像

Paligemma 3b Pt 224

PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を同時に処理しテキスト出力を生成できます。

画像生成テキスト

Vitamin XL 384px

ViTamin-XL-384px はViTaminアーキテクチャに基づく大規模視覚言語モデルで、視覚言語タスク向けに設計されており、高解像度画像処理とマルチモーダル特徴抽出をサポートします。

画像生成テキスト

Internvl 14B 224px

InternVL-14B-224px は14Bパラメータの視覚言語基盤モデルで、様々な視覚言語タスクをサポートします。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase