Lava_phiオープンソース視覚言語モデル - CLIPを活用して無料で強力な画像処理を実現

ホーム

Lava Phi

sagar007によって開発

マイクロソフトPhi-1.5アーキテクチャを基にしたビジュアルランゲージモデル、CLIPと統合して画像処理能力を実現

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #マルチモーダルQA #命令微調整 #小パラメータ高効率

ダウンロード数 17

リリース時間 : 1/2/2025

モデル概要

これはマルチモーダルモデルで、画像とテキスト入力を同時に処理し、関連するテキスト出力を生成できます。

モデル特徴

マルチモーダル能力

テキストと画像処理能力を統合し、画像に関連するテキスト記述を理解・生成可能

効率的なトレーニング

QLoRA(量子化低ランク適応)トレーニング手法を採用、4ビット量子化で効率向上

混合精度トレーニング

bfloat16を使用した混合精度トレーニングでトレーニング効率を向上

モデル能力

画像理解

画像記述生成

ビジュアルQA

マルチモーダル対話

使用事例

画像理解

画像記述生成

入力画像に対して詳細なテキスト記述を生成

ビジュアルQA

画像に基づくQA

画像内容に関する自然言語質問に回答

🚀 LLaVA-Phiモデル

これは、MicrosoftのPhi-1.5アーキテクチャをベースに、画像処理機能としてCLIPを備えたビジョン言語モデルです。

🚀 クイックスタート

このモデルは、画像からテキストを生成するために使用できます。以下のコード例を参考に、モデルを使い始めましょう。

✨ 主な機能

Microsoft Phi-1.5をベースモデルとして使用。
CLIP ViT-B/32をビジョンエンコーダーとして使用。
QLoRAによるファインチューニングを行っています。
Instruct 150Kデータセットで訓練されています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer, AutoProcessor
import torch
from PIL import Image

# Load model and tokenizer
model = AutoModelForCausalLM.from_pretrained("sagar007/Lava_phi")
tokenizer = AutoTokenizer.from_pretrained("sagar007/Lava_phi")
processor = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")

# For text
def generate_text(prompt):
    inputs = tokenizer(f"human: {prompt}\ngpt:", return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=128)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# For images
def process_image_and_prompt(image_path, prompt):
    image = Image.open(image_path)
    image_tensor = processor(images=image, return_tensors="pt").pixel_values
    
    inputs = tokenizer(f"human: <image>\n{prompt}\ngpt:", return_tensors="pt")
    outputs = model.generate(
        input_ids=inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        images=image_tensor,
        max_new_tokens=128
    )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

高度な使用法

このREADMEには高度な使用法に関する具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデルの詳細

属性	详情
ベースモデル	Microsoft Phi-1.5
ビジョンエンコーダー	CLIP ViT-B/32
訓練方法	QLoRAファインチューニング
訓練データセット	Instruct 150K

訓練の詳細

QLoRA（Quantized Low-Rank Adaptation）を使用して訓練されています。
効率化のために4-bit量子化を行っています。
勾配チェックポイントを有効にしています。
混合精度訓練（bfloat16）を行っています。

🔧 技術詳細

このセクションでは、モデルの訓練に関する技術的な詳細が提供されています。QLoRAを用いたファインチューニング、4-bit量子化、勾配チェックポイントの有効化、混合精度訓練（bfloat16）などの手法が用いられています。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

引用

@software{llava_phi_2024,
  author = {sagar007},
  title = {LLaVA-Phi: Vision-Language Model},
  year = {2024},
  publisher = {Hugging Face},
  url = {https://huggingface.co/sagar007/Lava_phi}
}