モデル選定

マルチモーダル指示追従

# マルチモーダル指示追従

Qwenチームが開発した8Bパラメータ規模の大規模言語モデルで、超長コンテキストと多言語処理をサポート

大規模言語モデル

lmstudio-community

unsloth/Llama-3.2-11B-Vision-Instructを基にファインチューニングされたマルチモーダルモデルで、視覚-言語タスクに最適化され指示追従能力が強化されており、Unslothフレームワークにより2倍のトレーニング加速を実現

テキスト生成画像

Transformers 英語

Turkish LLaVA V0.1

マルチモーダル視覚指示追従タスク専用に設計されたトルコ語視覚言語モデルで、視覚（画像）とテキスト入力を同時に処理し、トルコ語で提供される指示を理解して実行できます。

画像生成テキスト

Safetensors その他

Spydaz Web AI Llava

LLaVaはオープンソースのマルチモーダルチャットボットで、LLaMA/VicunaをGPT生成のマルチモーダル指示追従データでファインチューニングしたもので、チャット/指示に最適化されたマルチモーダル版LLMです。

画像生成テキスト

Transformers 複数言語対応

Llava 1.5 7b Llara D Inbc Aux B VIMA 80k

LLaRAはオープンソースの視覚運動戦略モデルで、LLaVA-7b-v1.5を指示追従データと補助データセットでファインチューニングして訓練され、主にロボット技術研究に使用されます。

Denseconnector V1.5 8B

DenseConnectorはオープンソースのチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTが生成したマルチモーダル指示追従データでトレーニングされています。

画像生成テキスト

Llava V1.6 Vicuna 7b

LLaVAはオープンソースのマルチモーダルチャットボットで、マルチモーダル指示追従データを用いた大規模言語モデルのファインチューニングによって訓練されています。

テキスト生成画像

LLaVAはオープンソースのマルチモーダルチャットボットで、大規模言語モデルのファインチューニングにより訓練され、画像とテキストのインタラクションをサポートします。

テキスト生成画像

Llama Vid 7b Full 224 Video Fps 1

LLaMA-VIDはLLaMA/Vicunaをファインチューニングしたオープンソースのマルチモーダルチャットボットで、拡張されたコンテキストトークンにより数時間に及ぶ動画処理をサポートします。

テキスト生成ビデオ

Japanese Stable Vlm

視覚言語指示追従モデルで、入力画像に対する日本語説明を生成し、オプションで入力テキスト（質問など）を処理できます。

画像生成テキスト

Transformers 日本語

BakLLaVA-1はMistral 7Bモデルをベースに、LLaVA 1.5アーキテクチャで強化されたマルチモーダルモデルで、複数のベンチマークテストにおいてLlama 2 13Bの性能を上回っています。

テキスト生成画像

Transformers 英語

Llava V1.5 Mlp2x 336px Pretrain Vicuna 7b V1.5

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTで生成されたマルチモーダル指示追従データでトレーニングされています。

テキスト生成画像

Speechgpt 7B Ma

SpeechGPTは、人間の指示に基づいてマルチモーダルコンテンツを認識・生成できる内在的なクロスモーダル対話能力を備えた大規模言語モデルです。

テキスト生成オーディオ

Llava Llama 2 7b Chat Lightning Lora Preview

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTで生成されたマルチモーダル指示追従データでトレーニングされています。

テキスト生成画像

Llava Lightning 7B Delta V1 1

LLaVAはLLaMA/VicunaをベースにGPTで生成したマルチモーダル指示追従データでファインチューニングされたオープンソースチャットボットです

テキスト生成画像

Llava 7b Delta V0

LLaVAはLLaMA/VicunaをベースにGPTで生成したマルチモーダル指示追従データでファインチューニングされたオープンソースのチャットボットで、視覚と言語のマルチモーダルインタラクションをサポートします。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase