llava-llama-3-8b-v1_1-ggufオープンソース多モーダルモデル - 画像理解とテキスト生成をサポート

ホーム

Llava Llama 3 8b V1 1 Gguf

xtunerによって開発

Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336モデルをファインチューニングしたマルチモーダルモデルで、画像理解とテキスト生成をサポート

画像生成テキスト #マルチモーダル対話 #高解像度画像理解 #Llama-3ファインチューニング

ダウンロード数 9,484

リリース時間 : 4/26/2024

モデル概要

これは視覚言語モデルで、画像内容を理解し関連するテキスト記述を生成でき、画像からテキストへのタスクに適しています

モデル特徴

強力な視覚理解能力

CLIP-ViT-Large視覚エンコーダを組み合わせ、画像内容を正確に理解可能

Llama-3言語モデル

Meta最新のLlama-3-8B-Instructモデルをベースに、高品質なテキスト生成を提供

マルチ解像度サポート

336ピクセル解像度の画像入力をサポート

効率的なファインチューニング

XTunerツールキットを使用した効率的なファインチューニングでモデル性能を最適化

モデル能力

画像内容理解

画像記述生成

マルチモーダル質問応答

視覚的推論

使用事例

画像理解

画像記述生成

入力画像に対して詳細な文章記述を生成

自然で流暢な画像記述テキストを生成

視覚的質問応答

画像内容に関する様々な質問に回答

画像関連の質問に正確に回答

教育

科学図解

科学図表や模式図を説明

複雑な科学概念の理解を学生に支援

🚀 llava-llama-3-8b-v1_1

このモデルは、Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をベースに、ShareGPT4V-PTとInternVL-SFTのデータセットを使用してFine-tuningされたLLaVAモデルです。画像からテキストへの変換などのタスクに適しています。

🚀 クイックスタート

モデルのダウンロード

# mmproj
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-mmproj-f16.gguf

# fp16 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-f16.gguf

# int4 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-int4.gguf

# (オプション) ollama fp16 modelfile
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_F16

# (オプション) ollama int4 modelfile
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_INT4

`ollama`でのチャット

# fp16
ollama create llava-llama3-f16 -f ./OLLAMA_MODELFILE_F16
ollama run llava-llama3-f16 "xx.png Describe this image"

# int4
ollama create llava-llama3-int4 -f ./OLLAMA_MODELFILE_INT4
ollama run llava-llama3-int4 "xx.png Describe this image"

`llama.cpp`でのチャット

llama.cppをビルドします (docs)。
./llava-cliをビルドします (docs)。

注意: llava-llama-3-8b-v1_1はLlama-3-instructのチャットテンプレートを使用しています。

# fp16
./llava-cli -m ./llava-llama-3-8b-v1_1-f16.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

# int4
./llava-cli -m ./llava-llama-3-8b-v1_1-int4.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

再現方法

詳細はdocsを参照してください。

✨ 主な機能

llava-llama-3-8b-v1_1は、meta-llama/Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をベースに、ShareGPT4V-PTとInternVL-SFTのデータセットを使用して、XTunerによってFine-tuningされたLLaVAモデルです。

注意: このモデルはGGUF形式です。

リソース:

GitHub: xtuner
HuggingFace LLaVA形式のモデル: xtuner/llava-llama-3-8b-v1_1-transformers
公式LLaVA形式のモデル: xtuner/llava-llama-3-8b-v1_1-hf
XTuner LLaVA形式のモデル: xtuner/llava-llama-3-8b-v1_1

📚 ドキュメント

詳細情報

モデル	ビジュアルエンコーダ	プロジェクター	解像度	事前学習戦略	ファインチューニング戦略	事前学習データセット	ファインチューニングデータセット
LLaVA-v1.5-7B	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, Frozen ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, LoRA ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B-v1.1	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, LoRA ViT	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)

結果

モデル	MMBench Test (EN)	MMBench Test (CN)	CCBench Dev	MMMU Val	SEED-IMG	AI2D Test	ScienceQA Test	HallusionBench aAcc	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	59.0	27.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	61.6	30.4	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	66.4	31.6	36.8	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1

📄 ライセンス

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}