🚀 Prompt2MedImage - 用于医学图像的扩散模型
Prompt2MedImage 是一个潜在文本到图像的扩散模型,它在 ROCO 数据集中的医学图像上进行了微调。该模型的权重可与 🧨Diffusers 库配合使用。此模型是使用 Amazon SageMaker 和 Hugging Face 深度学习容器进行训练的。
🚀 快速开始
安装依赖
pip install diffusers transformers
运行示例代码
运行带有默认 PNDM 调度器的管道:
import torch
from diffusers import StableDiffusionPipeline
model_id = "Nihirc/Prompt2MedImage"
device = "cuda"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
prompt = "Showing the subtrochanteric fracture in the porotic bone."
image = pipe(prompt).images[0]
image.save("porotic_bone_fracture.png")
✨ 主要特性
📦 安装指南
pip install diffusers transformers
💻 使用示例
基础用法
以下是运行带有默认 PNDM 调度器的管道的示例代码:
import torch
from diffusers import StableDiffusionPipeline
model_id = "Nihirc/Prompt2MedImage"
device = "cuda"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
prompt = "Showing the subtrochanteric fracture in the porotic bone."
image = pipe(prompt).images[0]
image.save("porotic_bone_fracture.png")
高级用法
目前文档未提供高级用法示例,可根据具体需求对基础代码进行扩展。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Nihir Chadderwala |
模型类型 |
基于扩散的文本到医学图像生成模型 |
语言 |
英语 |
许可证 |
wtfpl |
模型描述 |
这个潜在文本到图像的扩散模型可用于根据文本提示生成高质量的医学图像。它使用固定的预训练文本编码器(CLIP ViT - L/14),如 Imagen 论文 中所建议的那样。 |
示例展示
示例 1
患者在小儿麻痹症后手部残留麻痹。需要参照食指来稳定拇指。这是通过在第一和第二掌骨之间放置骨库中的移植物来实现的。X 光片显示一年后移植物完全愈合。

示例 2
一名 3 岁儿童有视觉障碍。轴位 FLAIR 图像显示一个鞍上病变沿着视束延伸至颞叶(箭头所示),有中度占位效应,符合视神经胶质瘤。在左中脑也注意到由于额外肿瘤累及导致的 FLAIR 高信号。

示例 3
显示骨质疏松骨中的转子下骨折。

许可证说明
本模型是开放访问的,所有人都可以使用,并遵循“做你他妈的想做的事”公共许可证,该许可证进一步规定了权利和使用方式。
- 您不能使用该模型故意生成或分享非法或有害的输出或内容。
- 作者对您生成的输出不主张任何权利,您可以自由使用它们,并对其使用负责。
- 您可以重新分发权重,并将该模型用于商业用途和/或作为服务使用。
引用信息
O. Pelka, S. Koitka, J. Rückert, F. Nensa, C.M. Friedrich,
"Radiology Objects in COntext (ROCO): A Multimodal Image Dataset".
MICCAI Workshop on Large-scale Annotation of Biomedical Data and Expert Label Synthesis (LABELS) 2018, September 16, 2018, Granada, Spain. Lecture Notes on Computer Science (LNCS), vol. 11043, pp. 180-189, Springer Cham, 2018.
doi: 10.1007/978-3-030-01364-6_20