_

Spydaz Web AI Llava

LeroyDyerによって開発
LLaVaはオープンソースのマルチモーダルチャットボットで、LLaMA/VicunaをGPT生成のマルチモーダル指示追従データでファインチューニングしたもので、チャット/指示に最適化されたマルチモーダル版LLMです。
ダウンロード数 30
リリース時間 : 9/17/2024

モデル概要

Transformerアーキテクチャに基づく自己回帰型言語モデルで、視覚と言語のマルチモーダルインタラクションをサポートし、複雑な指示追従やチャットシナリオに適しています。

モデル特徴

マルチモーダル能力
視覚と言語入力を同時に処理し、クロスモーダルな理解と生成を実現
効率的なトレーニング
120万の公開データのみを使用し、単一ノード8-A100で1日でトレーニング完了
アフリカ言語サポート
複数のアフリカ言語処理能力を特別に最適化
学術タスク最適化
学術VQAタスク向けに特別に最適化

モデル能力

視覚質問応答
マルチモーダル対話
クロスランゲージ翻訳
指示追従
知識推論
画像説明生成

使用事例

教育
多言語学習アシスタント
視覚と言語のインタラクションを通じて言語学習を支援
14言語の学習交流をサポート
医療
医療視覚質問応答
医学画像を解析し関連質問に回答
企業
マルチモーダルカスタマーサポートシステム
画像とテキストを含む顧客相談を処理
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase