オープンソースLLaVA - Phi - 3 - mini - ggufモデル - 無料で画像を簡単にテキストに変換！

Llava Phi 3 Mini Gguf

xtunerによって開発

LLaVA-Phi-3-mini は Phi-3-mini-4k-instruct と CLIP-ViT-Large-patch14-336 をファインチューニングした LLaVA モデルで、画像からテキストへの変換タスクに特化しています。

画像生成テキスト #マルチモーダル対話 #画像からテキストへの変換 #効率的なファインチューニング

ダウンロード数 1,676

リリース時間 : 4/25/2024

モデル概要

このモデルは Phi-3-mini-4k-instruct の言語能力と CLIP-ViT-Large-patch14-336 の視覚エンコーディング能力を組み合わせ、画像理解とテキスト生成タスクに使用されます。

モデル特徴

効率的なファインチューニング

XTuner ツールキットを使用した効率的なファインチューニングにより、Phi-3-mini と CLIP-ViT の利点を組み合わせています。

マルチモーダル能力

画像とテキスト入力を同時に処理し、関連するテキスト記述を生成できます。

高性能

MMBench、MMMU、SEED-IMG などの複数のベンチマークテストで優れたパフォーマンスを発揮します。

モデル能力

画像理解

テキスト生成

マルチモーダル推論

使用事例

画像記述

自動画像キャプション

画像の詳細なテキスト記述を生成し、コンテンツ管理と検索に適しています。

SEED-IMG テストで 70.0 の精度を達成しました。

視覚的質問応答

画像内容に関する質問応答

画像内容に関する複雑な質問に答えます。

MMBench テストで 69.2 の精度を達成しました。

🚀 LLaVA-Phi-3-mini

LLaVA-Phi-3-miniは、画像をテキストに変換するモデルです。このモデルは、特定のデータセットを用いて微調整され、画像に対する説明や理解などのタスクに有効です。

✨ 主な機能

モデル概要

llava-phi-3-miniは、microsoft/Phi-3-mini-4k-instruct と CLIP-ViT-Large-patch14-336 をベースに、ShareGPT4V-PT と InternVL-SFT のデータセットを用いて、XTuner で微調整されたLLaVAモデルです。

注意: このモデルはGGUF形式です。

📚 ドキュメント

詳細情報

モデル	ビジュアルエンコーダ	プロジェクター	解像度	事前学習戦略	微調整戦略	事前学習データセット	微調整データセット	事前学習エポック	微調整エポック
LLaVA-v1.5-7B	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, Frozen ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)	1	1
LLaVA-Llama-3-8B	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, LoRA ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)	1	1
LLaVA-Llama-3-8B-v1.1	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, LoRA ViT	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)	1	1
LLaVA-Phi-3-mini	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, Full ViT	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)	1	2

結果

モデル	MMBench Test (EN)	MMMU Val	SEED-IMG	AI2D Test	ScienceQA Test	HallusionBench aAcc	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	37.1	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1
LLaVA-Phi-3-mini	69.2	41.4	70.0	69.3	73.7	49.8	87.3	61.5	57.8	1477/313	43.7

🚀 クイックスタート

モデルのダウンロード

# mmproj
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/llava-phi-3-mini-mmproj-f16.gguf

# fp16 llm
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/llava-phi-3-mini-f16.gguf

# int4 llm
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/llava-phi-3-mini-int4.gguf

# (オプション) ollama fp16 modelfile
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/OLLAMA_MODELFILE_F16

# (オプション) ollama int4 modelfile
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/OLLAMA_MODELFILE_INT4

`ollama` でのチャット

注意: llava-phi-3-miniは Phi-3-instruct チャットテンプレートを使用しています。

# fp16
ollama create llava-phi3-f16 -f ./OLLAMA_MODELFILE_F16
ollama run llava-phi3-f16 "xx.png Describe this image"

# int4
ollama create llava-phi3-int4 -f ./OLLAMA_MODELFILE_INT4
ollama run llava-phi3-int4 "xx.png Describe this image"

`./llava-cli` でのチャット

llama.cpp をビルドします (ドキュメント)。
./llava-cli をビルドします (ドキュメント)。

注意: llava-phi-3-miniは Phi-3-instruct チャットテンプレートを使用しています。

# fp16
./llava-cli -m ./llava-phi-3-mini-f16.gguf --mmproj ./llava-phi-3-mini-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096

# int4
./llava-cli -m ./llava-phi-3-mini-int4.gguf --mmproj ./llava-phi-3-mini-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096

再現方法

詳細はドキュメントを参照してください。

📄 ライセンス

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}