L

Llava 13b Delta V0

liuhaotianによって開発
LLaVAはLLaMA/Vicunaをベースに、GPTで生成されたマルチモーダル命令追従データでファインチューニングされたオープンソースのチャットボットで、Transformerアーキテクチャに基づく自己回帰型言語モデルです。
ダウンロード数 352
リリース時間 : 4/17/2023

モデル概要

LLaVAはマルチモーダル大規模モデルで、視覚と言語処理能力を統合し、主にマルチモーダル大規模モデルやチャットボットの学術研究に使用されます。

モデル特徴

マルチモーダル能力
視覚と言語処理能力を統合し、画像に関連するテキスト内容を理解し生成できます。
命令追従
GPTで生成されたマルチモーダル命令追従データでファインチューニングされており、複雑な命令をよりよく理解し実行できます。
オープンソース
Apache 2.0ライセンスでオープンソース化されており、学術研究や二次開発に便利です。

モデル能力

マルチモーダル命令追従
視覚推論
科学質問応答
画像説明生成
複雑推論

使用事例

学術研究
マルチモーダル大規模モデル研究
マルチモーダル大規模モデルの性能と能力を研究するために使用されます。
視覚推論
モデルの視覚推論タスクにおけるパフォーマンスを研究するために使用されます。
ScienceQAデータセットにおいて、本モデルはGPT-4との協調表現でデータセットの最高成績を更新しました。
教育
科学質問応答
教育分野の科学質問応答タスクに使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase