L

Llava V1.5 7b

liuhaotianによって開発
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、画像とテキストのインタラクションをサポートします。
ダウンロード数 1.4M
リリース時間 : 10/5/2023

モデル概要

LLaMA/Vicunaをファインチューニングし、GPTが生成したマルチモーダル命令追従データに基づいて訓練されたオープンソースチャットボットで、画像とテキストの理解および生成能力を備えています。

モデル特徴

マルチモーダル理解
画像とテキスト入力を同時に処理し、クロスモーダルインタラクションを実現
命令追従
複雑なマルチモーダル命令を理解し実行可能
オープンソースでファインチューニング可能
オープンソースモデルアーキテクチャに基づき、さらなるカスタマイズと最適化をサポート

モデル能力

画像キャプション生成
視覚的質問応答
マルチモーダル対話
命令追従
クロスモーダル推論

使用事例

学術研究
マルチモーダルモデル研究
視覚-言語連合表現学習の探索に使用
インテリジェントアシスタント
画像テキストインタラクティブアシスタント
画像内容を理解する対話システムの構築
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase