🚀 Prompt2MedImage - 医用画像生成用Diffusionモデル
Prompt2MedImageは、ROCOデータセットの医用画像でファインチューニングされた潜在的なテキストから画像への拡散モデルです。このモデルの重みは、🧨Diffusersライブラリと共に使用することを想定しています。このモデルは、Amazon SageMakerとHugging Faceのディープラーニングコンテナを使用してトレーニングされました。
✨ 主な機能
この潜在的なテキストから画像への拡散モデルは、テキストプロンプトに基づいて高品質の医用画像を生成するために使用できます。Imagen論文で提案されているように、固定された事前学習済みのテキストエンコーダー(CLIP ViT-L/14)を使用しています。
📦 インストール
pip install diffusers transformers
💻 使用例
基本的な使用法
デフォルトのPNDMスケジューラーでパイプラインを実行する例です。
import torch
from diffusers import StableDiffusionPipeline
model_id = "Nihirc/Prompt2MedImage"
device = "cuda"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
prompt = "Showing the subtrochanteric fracture in the porotic bone."
image = pipe(prompt).images[0]
image.save("porotic_bone_fracture.png")
具体的な画像生成例
- 患者は、小児麻痺後に手の残留麻痺を患っていました。親指を人差し指を基準に安定させる必要がありました。これは、骨バンクからの移植片を第1と第2中手骨の間に配置することで達成されました。X線写真は、1年後の移植片の完全な治癒を示しています。

- 視覚障害のある3歳の子供。軸方向FLAIR画像は、視神経路に沿って側頭葉にまで拡がる鞍上部病変(矢印)を示しており、中等度の腫瘤効果があり、視神経膠腫と一致します。左中脳にも追加の腫瘍関与によるFLAIR高信号が認められます。

- 多孔質骨の転子下骨折を示しています。

📚 ドキュメント
モデル詳細
属性 |
詳情 |
開発者 |
Nihir Chadderwala |
モデルタイプ |
拡散ベースのテキストから医用画像生成モデル |
言語 |
英語 |
ライセンス |
wtfpl |
モデル説明 |
この潜在的なテキストから画像への拡散モデルは、テキストプロンプトに基づいて高品質の医用画像を生成するために使用できます。Imagen論文で提案されているように、固定された事前学習済みのテキストエンコーダー(CLIP ViT-L/14)を使用しています。 |
📄 ライセンス
このモデルはオープンアクセスで、誰でも利用できます。Do What the F*ck You want to public licenseによって、権利と使用方法がさらに規定されています。
- このモデルを使用して、意図的に違法または有害な出力やコンテンツを生成したり共有したりすることはできません。
- 作者は、あなたが生成した出力に対して何らの権利も主張せず、あなたはそれらを自由に使用でき、その使用に対して責任を負います。
- あなたは、重みを再配布し、モデルを商用および/またはサービスとして使用することができます。
引用
O. Pelka, S. Koitka, J. Rückert, F. Nensa, C.M. Friedrich,
"Radiology Objects in COntext (ROCO): A Multimodal Image Dataset".
MICCAI Workshop on Large-scale Annotation of Biomedical Data and Expert Label Synthesis (LABELS) 2018, September 16, 2018, Granada, Spain. Lecture Notes on Computer Science (LNCS), vol. 11043, pp. 180-189, Springer Cham, 2018.
doi: 10.1007/978-3-030-01364-6_20