🚀 PaliGemma皮膚科モデル
このモデルは、皮膚科関連の画像とテキスト処理タスクに特化したモデルです。画像分析と自然言語処理を組み合わせることで、様々な皮膚状態の識別を支援します。
🚀 クイックスタート
このモデルを使って皮膚科画像を分析するには、以下のコードを参考にしてください。
import torch
from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
model_id = "brucewayne0459/paligemma_derm"
processor = AutoProcessor.from_pretrained(model_id)
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, device_map={"": 0})
model.eval()
input_text = "Identify the skin condition?"
input_image_path = " Replace with your actual image path"
input_image = Image.open(input_image_path).convert("RGB")
inputs = processor(text=input_text, images=input_image, return_tensors="pt", padding="longest").to("cuda" if torch.cuda.is_available() else "cpu")
max_new_tokens = 50
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=max_new_tokens)
decoded_output = processor.decode(outputs[0], skip_special_tokens=True)
print("Model Output:", decoded_output)
✨ 主な機能
- 皮膚科画像を直接分析し、潜在的な皮膚状態に関する洞察を提供します。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
上記のクイックスタートのコードが基本的な使用例です。
📚 ドキュメント
モデルの詳細
モデルの説明
このモデルは、PaliGemma - 3Bアーキテクチャに基づいており、皮膚科関連の画像とテキスト処理タスク用にファインチューニングされています。
- 開発者: Bruce_Wayne
- モデルの種類: ビジョンモデル
- ファインチューニング元のモデル: https://huggingface.co/google/paligemma-3b-pt-224
- LoRaアダプターの使用: はい
- 想定される用途: 医療画像分析、特に皮膚科
利用方法
直接利用
このモデルは、皮膚科画像の分析に直接使用でき、潜在的な皮膚状態に関する洞察を提供します。
バイアス、リスク、制限事項
- 肌色のバイアス: このモデルは、すべての肌色を適切に表現していないデータセットで学習されている可能性があり、結果にバイアスが生じる可能性があります。
- 地理的なバイアス: このモデルの性能は、地域によって特定の皮膚状態の有病率が異なるため、変動する可能性があります。
訓練の詳細
訓練データ
このモデルは、皮膚科画像と病名を組み合わせたデータセットでファインチューニングされました。
訓練手順
このモデルは、より効率的な訓練のためにLoRA(Low - Rank Adaptation)を使用してファインチューニングされました。また、訓練を高速化し、メモリ使用量を削減するために混合精度(bfloat16)が使用されました。
訓練ハイパーパラメータ
- 訓練方式: 混合精度(bfloat16)
- エポック数: 10
- 学習率: 2e - 5
- バッチサイズ: 6
- 勾配累積ステップ数: 4
評価
テストデータ、要因、メトリクス
テストデータ
このモデルは、訓練データとは別の皮膚科画像と病名の検証セットで評価されました。
メトリクス
- 検証損失: 訓練プロセス全体を通じて損失を追跡し、モデルの性能を評価しました。
- 正確性: モデルの予測を評価する主要なメトリクスです。
結果
このモデルは、最終的な検証損失が約0.2214となり、使用されたデータセットに基づいて皮膚状態を予測する上で合理的な性能を示しました。
環境への影響
項目 |
詳細 |
ハードウェアタイプ |
1 x L4 GPU |
使用時間 |
~22時間 |
クラウドプロバイダー |
LIGHTNING AI |
コンピュートリージョン |
米国 |
排出された二酸化炭素量 |
0.9 kg eq. CO2 |
🔧 技術詳細
モデルアーキテクチャと目的
- アーキテクチャ: PaliGemma - 3Bに基づくビジョン言語モデル
- 目的: 画像とテキストから皮膚科の状態を分類および診断すること
コンピュートインフラストラクチャ
ハードウェア
📄 ライセンス
このモデルは、Apache - 2.0ライセンスの下で提供されています。
モデルカードの作成者
Bruce_Wayne