モデル選定

マルチモーダル対話

# マルチモーダル対話

Spatial LLaVA 7B Gguf

Spatial-LLaVA-7BはLLaVAモデルを微調整したマルチモーダルモデルで、空間関係推論能力の向上に特化しており、マルチモーダル研究やチャットボット開発に適しています。

テキスト生成画像

Qwen3 8B NEO Imatrix Max GGUF

Qwen3-8Bモデルに基づくNEO Imatrix量子化バージョンで、32Kの長文脈と強化された推論能力をサポートします。

大規模言語モデル

VL Rethinker 72B Mlx 4bit

VL-Rethinker-72Bの4ビット量子化バージョンで、AppleデバイスのMLXフレームワークに適しており、視覚質問応答タスクをサポートします。

テキスト生成画像英語

Gemma 3 12b It GPTQ 4b 128g

このモデルはgoogle/gemma-3-12b-itをINT4量子化したバージョンで、GPTQアルゴリズムによりパラメータを16ビットから4ビットに削減し、ディスク容量とGPUメモリ要件を大幅に削減しました。

画像生成テキスト

Vora 7B Instruct

VoRAは7Bパラメータの視覚-言語モデルで、画像テキストからテキストへの変換タスクに特化しています。

画像生成テキスト

VoRAは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。

画像生成テキスト

Qwen2.5 VL 7B Instruct Q4 K M GGUF

これはQwen2.5-VL-7B-InstructモデルのGGUF量子化バージョンで、マルチモーダルタスクに適しており、画像とテキスト入力をサポートします。

画像生成テキスト英語

Q-SiT Miniは軽量な画像品質評価と対話モデルで、画像品質分析とスコアリングに特化しています。

画像生成テキスト

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video-7B-hf は動画ベースのマルチモーダルモデルで、動画とテキスト入力を処理し、テキスト出力を生成できます。

ビデオ生成テキスト

Safetensors 英語

Qwen2.5 VL 7B Instruct GPTQ Int4

Qwen2.5-VL-7B-Instruct-GPTQ-Int4はQwen2.5-VL-7B-Instructモデルを非公式にGPTQ-Int4量子化したバージョンで、画像からテキストへのマルチモーダルタスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

Internvl 2 5 HiCo R64

長く豊富なコンテキスト（LRC）モデリングを強化した動画マルチモーダル大規模言語モデル。細かいディテールの知覚と長時間の時間的構造の捕捉能力を向上させ、既存のMLLMを改善

ビデオ生成テキスト

Transformers 英語

Internlm Xcomposer2d5 7b Chat

InternLM-XComposer2.5-ChatはInternLM-XComposer2.5-7Bでトレーニングされた対話モデルで、マルチモーダル命令追従とオープンエンド対話能力が大幅に向上しています。

テキスト生成画像

QVQ 72B Preview Abliterated GPTQ Int8

これはQVQ-72B-Preview-abliteratedモデルのGPTQ量子化8ビットバージョンで、画像テキストからテキストへの変換タスクをサポートします。

画像生成テキスト

Transformers 英語

Apollo LMMs Apollo 7B T32

Apolloは1時間に及ぶ長編動画の理解に特化した一連の大型マルチモーダルモデルで、複雑な動画質問応答やマルチターン対話を得意としています。

ビデオ生成テキスト

Transformers 英語

Apollo LMMs Apollo 1 5B T32

Apolloは動画理解に特化した一連の大型マルチモーダルモデルで、長尺動画の内容理解、時系列推論、複雑な動画質問応答などのタスクに優れています。

ビデオ生成テキスト

Llama3.1 Typhoon2 Audio 8b Instruct

タイフーン2-オーディオ版は、オーディオ、音声、テキスト入力を処理し、テキストと音声の両方を同時に生成できるエンドツーエンドの音声変換モデルアーキテクチャです。このモデルは特にタイ語に最適化されており、英語もサポートしています。

テキスト生成オーディオ

Transformers 複数言語対応

Mini InternVL2 1B DA DriveLM

Mini-InternVL2-DA-RSはリモートセンシング画像分野に最適化されたマルチモーダルモデルで、Mini-InternVLアーキテクチャを基に、ドメイン適応フレームワークで微調整され、リモートセンシング画像理解タスクで優れた性能を発揮します。

画像生成テキスト

Transformers その他

VARCO VISION 14B HF

VARCO-VISION-14Bは強力な英韓視覚言語モデルで、画像とテキスト入力をサポートし、テキスト出力を生成します。位置特定、参照、OCR機能を備えています。

画像生成テキスト

Transformers 複数言語対応

ChatRexは優れた知覚能力を持つマルチモーダル大規模言語モデルで、質問に答える際に答えを具体的なオブジェクトに関連付けることができます。

画像生成テキスト

Safetensors 英語

GLM-Edge-V-5Bは50億パラメータのマルチモーダルモデルで、画像とテキスト入力をサポートし、画像理解とテキスト生成タスクを実行できます。

画像生成テキスト

GLM-Edge-V-2BはPytorchフレームワークに基づく画像テキストからテキストへのモデルで、中国語処理をサポートしています。

画像生成テキスト

Aria Sequential Mlp Bnb Nf4

Aria-sequential_mlpベースのBitsAndBytes NF4量子化バージョンで、画像テキストからテキストタスクに適しており、VRAM要件は約15.5GBです。

画像生成テキスト

Aria Sequential Mlp FP8 Dynamic

Aria-sequential_mlpベースのFP8動的量子化モデルで、画像テキストからテキストタスクに適しており、VRAM要件は約30GBです。

画像生成テキスト

Videochat2 HD Stage4 Mistral 7B Hf

VideoChat2-HD-hfは、Mistral-7Bに基づくマルチモーダルビデオ理解モデルで、ビデオテキスト変換タスクに特化しています。

ビデオ生成テキスト

Qwen2 Vl Tiny Random

これはQwen2-VL-7B-Instruct設定に基づきランダム初期化された小型デバッグモデルで、視覚言語タスク用です

画像生成テキスト

Qwen2 Audio 7B Instruct 4bit

これはQwen2-Audio-7B-Instructの4ビット量子化バージョンで、アリババクラウドのオリジナルQwenモデルに基づいて開発された、オーディオ-テキストマルチモーダル大規模言語モデルです。

音声生成テキスト

Internvideo2 Chat 8B InternLM2 5

InternVideo2-Chat-8B-InternLM2.5は、動画-テキストマルチモーダルモデルで、InternVideo2動画エンコーダーと大規模言語モデル(LLM)を統合することで、動画理解と人間との対話能力を強化しています。

ビデオ生成テキスト

Mplug Owl3 7B 240728

mPLUG-Owl3は、長い画像シーケンス理解の課題を解決するために設計された最先端のマルチモーダル大規模言語モデルで、単一画像、複数画像、および動画タスクの処理をサポートします。

テキスト生成画像英語

Banban Beta V2 Gguf

AIバーチャルYouTuber板板モデル、NTNU VLSIサークル専用に設計されたバーチャルYouTuberアシスタントで、画像テキストからテキストへの変換能力を有します。

画像生成テキスト複数言語対応

Internvideo2 Chat 8B HD

InternVideo2-Chat-8B-HDは、大規模言語モデルと動画BLIPを統合した動画理解モデルで、段階的学習スキームにより構築され、高精細動画入力を処理できます。

ビデオ生成テキスト

LLaVA-Saiga-8bはIlyaGusev/saiga_llama3_8bモデルを基に開発された視覚-言語モデル（VLM）で、主にロシア語タスクに適応していますが、英語処理能力も保持しています。

画像生成テキスト

Transformers 複数言語対応

Tinyllava 1.1b V0.1

TinyLlama-1.1Bベースの軽量ビジュアルQAモデルで、BakLlavaコードベースでトレーニングされ、画像コンテンツ理解とQAタスクをサポートします。

テキスト生成画像

Llava Calm2 Siglip

llava-calm2-siglip は実験的な視覚言語モデルで、画像に関する質問に日本語と英語で回答できます。

画像生成テキスト

Transformers 複数言語対応

Paligemma 3B Chat V0.2

google/paligemma-3b-mix-448を微調整したマルチモーダル対話モデルで、マルチターン対話シーンに最適化されています

テキスト生成画像

Transformers 複数言語対応

Vision 8B MiniCPM 2 5 Uncensored And Detailed 4bit

MiniCPM-Llama3-V 2.5のint4量子化バージョンで、GPU VRAM使用量を大幅に削減（約9GB）

テキスト生成画像

Cogvlm2 Llama3 Chat 19B Int4

CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル対話モデルで、中英語をサポートし、8Kのコンテキスト長と1344*1344解像度の画像処理能力を備えています。

テキスト生成画像

Transformers 英語

Minicpm Llama3 V 2 5 Int4

MiniCPM-Llama3-V 2.5のint4量子化バージョンで、GPU VRAM使用量を約9GBに大幅に削減し、視覚質問応答タスクに適しています。

テキスト生成画像

360VLはLLama3言語モデルを基に開発されたオープンソースの大規模マルチモーダルモデルで、強力な画像理解能力と二言語テキストサポートを備えています。

テキスト生成画像

Transformers 複数言語対応

Cogvlm2 Llama3 Chinese Chat 19B

CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、中英二言語をサポートし、強力な画像理解と対話能力を備えています。

テキスト生成画像

Transformers 英語

Cogvlm2 Llama3 Chat 19B

CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、画像理解と対話タスクをサポートし、8Kのコンテキスト長と1344x1344の画像解像度処理能力を備えています。

テキスト生成画像

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase