llava-phi-3-mini-hf開源模型 - 免費實現圖像轉文本實用功能

首頁

Llava Phi 3 Mini Hf

由xtuner開發

基於Phi-3-mini-4k-instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型，支持圖像轉文本任務

圖像生成文本

Transformers

#多模態對話 #圖像理解 #小參數高效

下載量 2,322

發布時間 : 4/25/2024

模型概述

LLaVA-Phi-3-mini是一個視覺語言模型，能夠理解圖像內容並生成相關文本描述，適用於多模態交互場景。

模型特點

高效微調

使用XTuner工具進行高效微調，結合Phi-3-mini和CLIP-ViT的優勢

多模態能力

能夠同時處理視覺和語言信息，實現圖像到文本的轉換

高性能

在多個基準測試中表現優異，如MMBench、MMMU等

模型能力

圖像理解

文本生成

多模態交互

視覺問答

使用案例

教育

科學圖解分析

分析科學圖表並解釋內容

如準確識別火山結構圖中的熔岩部分

內容理解

圖像描述生成

為圖像生成詳細的文本描述

如準確描述兩隻貓在沙發上睡覺的場景

🚀 llava-phi-3-mini模型

llava-phi-3-mini是一款圖像到文本生成的模型，它基於特定的預訓練模型和數據集進行微調，能夠有效處理圖像相關的文本生成任務，為圖像理解和信息提取提供了強大的支持。

🚀 快速開始

通過`pipeline`進行對話

from transformers import pipeline
from PIL import Image    
import requests

model_id = "xtuner/llava-phi-3-mini-hf"
pipe = pipeline("image-to-text", model=model_id, device=0)
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/ai2d-demo.jpg"

image = Image.open(requests.get(url, stream=True).raw)
prompt = "<|user|>\n<image>\nWhat does the label 15 represent? (1) lava (2) core (3) tunnel (4) ash cloud<|end|>\n<|assistant|>\n"

outputs = pipe(image, prompt=prompt, generate_kwargs={"max_new_tokens": 200})
print(outputs)
>>> [{'generated_text': '\nWhat does the label 15 represent? (1) lava (2) core (3) tunnel (4) ash cloud (1) lava'}]

通過純`transformers`進行對話

import requests
from PIL import Image

import torch
from transformers import AutoProcessor, LlavaForConditionalGeneration

model_id = "xtuner/llava-phi-3-mini-hf"

prompt = "<|user|>\n<image>\nWhat are these?<|end|>\n<|assistant|>\n"
image_file = "http://images.cocodataset.org/val2017/000000039769.jpg"

model = LlavaForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=True, 
).to(0)

processor = AutoProcessor.from_pretrained(model_id)


raw_image = Image.open(requests.get(image_file, stream=True).raw)
inputs = processor(prompt, raw_image, return_tensors='pt').to(0, torch.float16)

output = model.generate(**inputs, max_new_tokens=200, do_sample=False)
print(processor.decode(output[0][2:], skip_special_tokens=True))
>>> What are these? These are two cats sleeping on a pink couch.

復現實驗

請參考文檔。

✨ 主要特性

多模型融合：基於microsoft/Phi-3-mini-4k-instruct和CLIP-ViT-Large-patch14-336進行微調，融合了不同模型的優勢。
多數據集訓練：使用ShareGPT4V-PT和InternVL-SFT進行訓練，提升了模型的泛化能力。
多種格式支持：提供了HuggingFace LLaVA格式、GGUF LLaVA模型和XTuner LLaVA格式模型等多種格式，方便不同場景使用。

📚 詳細文檔

模型信息

llava-phi-3-mini是一個LLaVA模型，由XTuner基於特定的預訓練模型和數據集進行微調得到。

注意：該模型採用HuggingFace LLaVA格式。

相關資源：

GitHub: xtuner
官方LLaVA格式模型: xtuner/llava-phi-3-mini
GGUF LLaVA模型: xtuner/llava-phi-3-mini-gguf
XTuner LLaVA格式模型: xtuner/llava-phi-3-mini-xtuner

模型細節

模型	視覺編碼器	投影器	分辨率	預訓練策略	微調策略	預訓練數據集	微調數據集	預訓練輪數	微調輪數
LLaVA-v1.5-7B	CLIP-L	MLP	336	凍結大語言模型（LLM），凍結視覺模型（ViT）	全量訓練LLM，凍結ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)	1	1
LLaVA-Llama-3-8B	CLIP-L	MLP	336	凍結LLM，凍結ViT	全量訓練LLM，使用低秩自適應（LoRA）訓練ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)	1	1
LLaVA-Llama-3-8B-v1.1	CLIP-L	MLP	336	凍結LLM，凍結ViT	全量訓練LLM，使用LoRA訓練ViT	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)	1	1
LLaVA-Phi-3-mini	CLIP-L	MLP	336	凍結LLM，凍結ViT	全量訓練LLM，全量訓練ViT	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)	1	2

實驗結果

模型	MMBench測試（英文）	MMMU驗證集	SEED-IMG	AI2D測試	ScienceQA測試	HallusionBench準確率	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	37.1	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1
LLaVA-Phi-3-mini	69.2	41.4	70.0	69.3	73.7	49.8	87.3	61.5	57.8	1477/313	43.7

📄 許可證

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}