llava-llama-3-8b-v1_1-GGUFオープンソースモデル - 画像からテキストへのタスクを簡単に実現

ホーム

Llava Llama 3 8b V1 1 GGUF

MoMonirによって開発

Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像からテキストへの変換タスクをサポート

画像生成テキスト #マルチモーダル対話 #画像理解 #低リソース展開

ダウンロード数 138

リリース時間 : 5/4/2024

モデル概要

これは視覚言語モデルで、画像内容を理解し関連するテキスト記述を生成でき、マルチモーダルインタラクションシーンに適しています。

モデル特徴

マルチモーダル理解

視覚エンコーダーと言語モデルを組み合わせ、画像内容を理解し関連テキストを生成可能

効率的なファインチューニング

LoRA技術を使用して視覚エンコーダーをファインチューニングし、モデル性能を向上

GGUFフォーマットサポート

GGUFフォーマットに変換し、様々な推論ツールやプラットフォームと互換性あり

モデル能力

画像内容理解

画像記述生成

マルチモーダル対話

視覚的質問応答

使用事例

コンテンツ生成

自動画像キャプション

画像に対して記述的なテキストを生成

視覚障害者支援やコンテンツ管理システムに活用可能

教育

視覚的質問応答システム

画像内容に関する質問に回答

MMBenchテストで72.3点(英語)を獲得

🚀 MoMonir/llava-llama-3-8b-v1_1-GGUF

このモデルは、xtuner/llava-llama-3-8b-v1_1 からGGUF形式に変換されたものです。モデルの詳細については、元のモデルカードを参照してください。

データセット

Lin-Chen/ShareGPT4V

パイプラインタグ

image-to-text

🚀 クイックスタート

GGUFについて (TheBloke の説明)

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。これは、llama.cppでサポートされなくなったGGMLの代替品です。

GGUFをサポートすることが知られているクライアントとライブラリの不完全なリストを以下に示します。

llama.cpp。GGUFのソースプロジェクトです。CLIとサーバーオプションを提供します。
text-generation-webui、最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートします。
KoboldCpp、全機能のWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションをサポートします。特にストーリーテリングに適しています。
GPT4All、無料でオープンソースのローカル実行GUIで、Windows、Linux、macOSをサポートし、完全なGPUアクセラレーションを備えています。
LM Studio、WindowsとmacOS (Silicon) 用の使いやすく強力なローカルGUIで、GPUアクセラレーションを備えています。Linux版は、2023年11月27日現在、ベータ版で利用可能です。
LoLLMS Web UI、多くの興味深い独自の機能を備えた素晴らしいWeb UIで、簡単なモデル選択のための完全なモデルライブラリを含んでいます。
Faraday.dev、WindowsとmacOS (SiliconとIntelの両方) 用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションを備えています。
llama-cpp-python、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
candle、パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。
ctransformers、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。なお、この記事の執筆時点 (2023年11月27日) では、ctransformersは長い間更新されておらず、多くの最近のモデルをサポートしていません。

元のモデルカード

✨ 主な機能

モデル

llava-llama-3-8b-v1_1は、meta-llama/Meta-Llama-3-8B-Instruct と CLIP-ViT-Large-patch14-336 から微調整されたLLaVAモデルで、ShareGPT4V-PT と InternVL-SFT を使用して、XTuner によって訓練されています。

注意: このモデルはGGUF形式です。

リソース

GitHub: xtuner
HuggingFace LLaVA形式のモデル: xtuner/llava-llama-3-8b-v1_1-transformers
公式LLaVA形式のモデル: xtuner/llava-llama-3-8b-v1_1-hf
XTuner LLaVA形式のモデル: xtuner/llava-llama-3-8b-v1_1

詳細

モデル	ビジュアルエンコーダー	プロジェクター	解像度	事前学習戦略	微調整戦略	事前学習データセット	微調整データセット
LLaVA-v1.5-7B	CLIP-L	MLP	336	凍結LLM、凍結ViT	完全LLM、凍結ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B	CLIP-L	MLP	336	凍結LLM、凍結ViT	完全LLM、LoRA ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B-v1.1	CLIP-L	MLP	336	凍結LLM、凍結ViT	完全LLM、LoRA ViT	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)

結果

モデル	MMBenchテスト (EN)	MMBenchテスト (CN)	CCBench Dev	MMMU Val	SEED-IMG	AI2Dテスト	ScienceQAテスト	HallusionBench aAcc	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	59.0	27.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	61.6	30.4	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	66.4	31.6	36.8	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1

📦 インストール

モデルのダウンロード

# mmproj
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-mmproj-f16.gguf

# fp16 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-f16.gguf

# int4 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-int4.gguf

# (オプション) ollama fp16 modelfile
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_F16

# (オプション) ollama int4 modelfile
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_INT4

💻 使用例

基本的な使用法

`ollama` でのチャット

# fp16
ollama create llava-llama3-f16 -f ./OLLAMA_MODELFILE_F16
ollama run llava-llama3-f16 "xx.png Describe this image"

# int4
ollama create llava-llama3-int4 -f ./OLLAMA_MODELFILE_INT4
ollama run llava-llama3-int4 "xx.png Describe this image"

`llama.cpp` でのチャット

llama.cpp をビルドします (ドキュメント)。
./llava-cli をビルドします (ドキュメント)。

注意: llava-llama-3-8b-v1_1は、Llama-3-instructチャットテンプレートを使用しています。

# fp16
./llava-cli -m ./llava-llama-3-8b-v1_1-f16.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

# int4
./llava-cli -m ./llava-llama-3-8b-v1_1-int4.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

再現方法

詳細については、ドキュメントを参照してください。

📄 ライセンス

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}