LLaVAオープンソースマルチモーダルチャットボット - 無料でビジュアル対話をサポートし、様々なニーズを簡単に満たす

Liuhaotian Llava V1.5 13b GGUF

PsiPiによって開発

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaアーキテクチャをベースに、マルチモーダル命令追従データで微調整されています。

ダウンロード数 1,225

リリース時間 : 12/1/2023

モデル概要

LLaVAは研究用の大規模マルチモーダルモデルで、主にコンピュータビジョン、自然言語処理、人工知能分野の研究に使用されます。

マルチモーダル能力

画像とテキスト入力を同時に処理し、クロスモーダル理解を実現

命令追従

マルチモーダル命令に従うよう特別に訓練

オープンソースモデル

オープンソースライセンスで提供され、研究開発に利用可能

エンドツーエンド推論

llama.cppを使用した追加依存なしの推論をサポート

画像-テキスト対話

視覚的質問応答

画像説明生成

マルチモーダル命令追従

クロスモーダル理解

学術研究

マルチモーダルモデル研究

大規模マルチモーダルモデルの性能と能力限界の研究に使用

人間-コンピュータ相互作用研究

視覚と言語に基づくマルチモーダルな人間-コンピュータ相互作用方法の探求

教育応用

視覚的学習支援

複雑な視覚的コンテンツの理解を学生に支援

LLaVAは、GPTで生成されたマルチモーダル命令追従データを使ってLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースチャットボットです。このモデルは、画像とテキストを入力としてテキストを出力するタスクに特化しています。

このリポジトリには、llama.cppを使ってllava - v1.5 - 13bをエンドツーエンドで推論するためのGGUFファイルが含まれており、追加の依存関係は必要ありません。

属性	详情
モデルタイプ	LLaVAは、GPTで生成されたマルチモーダル命令追従データを使ってLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースチャットボットです。Transformerアーキテクチャに基づいた自己回帰型言語モデルです。
モデル日付	LLaVA - v1.5 - 13Bは2023年9月に学習されました。
詳細情報の論文またはリソース	[https://llava - vl.github.io/](https://llava - vl.github.io/)