Lava_phi開源視覺語言模型 - 結合CLIP免費實現強大圖像處理

首頁

Lava Phi

由sagar007開發

基於微軟Phi-1.5架構的視覺語言模型，結合CLIP實現圖像處理能力

圖像生成文本

Transformers

支持多種語言開源協議:MIT #多模態問答 #指令微調 #小參數高效

下載量 17

發布時間 : 1/2/2025

模型概述

這是一個多模態模型，能夠同時處理圖像和文本輸入，生成相關的文本輸出。

模型特點

多模態能力

結合文本和圖像處理能力，能理解並生成與圖像相關的文本描述

高效訓練

採用QLoRA(量化低秩適配)訓練方法，4位量化提高效率

混合精度訓練

使用bfloat16進行混合精度訓練，提高訓練效率

模型能力

圖像理解

圖像描述生成

視覺問答

多模態對話

使用案例

圖像理解

圖像描述生成

為輸入圖像生成詳細的文本描述

視覺問答

基於圖像的問答

回答關於圖像內容的自然語言問題

🚀 LLaVA-Phi模型

LLaVA-Phi是一個基於微軟Phi-1.5架構的視覺語言模型，集成了CLIP以實現圖像處理能力，可有效處理圖像到文本的轉換任務。

🚀 快速開始

此模型可用於圖像到文本的轉換任務。以下是使用該模型的代碼示例：

from transformers import AutoModelForCausalLM, AutoTokenizer, AutoProcessor
import torch
from PIL import Image

# 加載模型和分詞器
model = AutoModelForCausalLM.from_pretrained("sagar007/Lava_phi")
tokenizer = AutoTokenizer.from_pretrained("sagar007/Lava_phi")
processor = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")

# 處理文本
def generate_text(prompt):
    inputs = tokenizer(f"human: {prompt}\ngpt:", return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=128)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# 處理圖像和提示
def process_image_and_prompt(image_path, prompt):
    image = Image.open(image_path)
    image_tensor = processor(images=image, return_tensors="pt").pixel_values
    
    inputs = tokenizer(f"human: <image>\n{prompt}\ngpt:", return_tensors="pt")
    outputs = model.generate(
        input_ids=inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        images=image_tensor,
        max_new_tokens=128
    )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

✨ 主要特性

基礎模型：採用微軟的Phi-1.5模型作為基礎。
視覺編碼器：使用CLIP ViT-B/32進行圖像特徵提取。
訓練方式：通過QLoRA進行微調，提高模型性能。
數據集：使用Instruct 150K數據集進行訓練。

🔧 技術細節

訓練方法：使用QLoRA（量化低秩自適應）進行訓練。
量化處理：採用4位量化以提高效率。
梯度檢查點：啟用梯度檢查點以減少內存使用。
混合精度訓練：使用bfloat16進行混合精度訓練。

📄 許可證

本項目採用MIT許可證。

📚 詳細文檔

引用信息

如果您使用了本模型，請參考以下引用信息：

@software{llava_phi_2024,
  author = {sagar007},
  title = {LLaVA-Phi: Vision-Language Model},
  year = {2024},
  publisher = {Hugging Face},
  url = {https://huggingface.co/sagar007/Lava_phi}
}

模型信息

屬性	詳情
模型類型	視覺語言模型
基礎模型	Microsoft Phi-1.5
視覺編碼器	CLIP ViT-B/32
訓練數據	Instruct 150K
訓練方法	QLoRA微調
許可證	MIT License
標籤	vision-language, phi, llava, clip, qlora, multimodal
數據集	laion/instructional-image-caption-data
庫名稱	transformers
任務類型	圖像到文本