🚀 Flux-Microworld-NFT-LoRA
Flux-Microworld-NFT-LoRA 是一个文本到图像的模型,可基于特定提示词生成精美的微观世界 NFT 风格图像。它使用了 LoRA 技术,结合基础模型进行训练,能生成多种不同场景的图像。
✨ 主要特性
- 文本到图像转换:根据输入的文本描述,生成对应的微观世界 NFT 风格图像。
- 多场景支持:可以生成如雪山、森林、街道市场、木屋、谷仓、城市等多种不同场景的图像。
- 参数可调节:提供了丰富的图像处理参数,可根据需求进行调整。
📦 安装指南
import torch
from pipelines import DiffusionPipeline
base_model = "black-forest-labs/FLUX.1-dev"
pipe = DiffusionPipeline.from_pretrained(base_model, torch_dtype=torch.bfloat16)
lora_repo = "strangerzonehf/Flux-Microworld-NFT-LoRA"
trigger_word = "Microworld NFT"
pipe.load_lora_weights(lora_repo)
device = torch.device("cuda")
pipe.to(device)
💻 使用示例
基础用法
prompt = "Microworld NFT, a miniature model of a snow-covered mountain with a red pickup truck parked on the left side of the mountain. The model is set against a stark white backdrop, creating a stark contrast to the scene. The house, adorned with a blue roof, is adorned with snow, adding a festive touch to the composition. The truck, positioned in the middle of the model, is positioned to the right of the house, adding depth to the focal point."
image = pipe(prompt).images[0]
image.save("generated_image.png")
高级用法
prompt = "Microworld NFT, a small scale model of a city is displayed on a white surface. The model is a dark gray concrete block, with two arches on the left side of the block. The building is made up of many tall buildings, with many windows and balconies. The buildings are arranged in a row, with a few cars parked on the right side. A few people are walking on the sidewalk, adding a touch of detail to the scene. The background is a stark white, creating a stark contrast to the model."
inference_steps = 32
image = pipe(prompt, num_inference_steps=inference_steps).images[0]
image.save("advanced_generated_image.png")
📚 详细文档
模型信息
属性 |
详情 |
基础模型 |
black-forest-labs/FLUX.1-dev |
实例提示词 |
Microworld NFT |
许可证 |
creativeml-openrail-m |
图像处理参数
参数 |
值 |
参数 |
值 |
LR 调度器 |
constant |
噪声偏移 |
0.03 |
优化器 |
AdamW |
多分辨率噪声折扣 |
0.1 |
网络维度 |
64 |
多分辨率噪声迭代次数 |
10 |
网络 Alpha |
32 |
重复次数与步数 |
20 & 2460 |
训练轮数 |
12 |
每 N 轮保存一次 |
1 |
标注信息
标注使用 florence2 - en(自然语言 & 英语)。
训练使用的图像总数
总共使用了 18 张高清图像进行训练。
最佳尺寸与推理
尺寸 |
宽高比 |
推荐情况 |
1280 x 832 |
3:2 |
最佳 |
1024 x 1024 |
1:1 |
默认 |
推理范围
触发词
你应该使用 Microworld NFT
来触发图像生成。
下载模型
该模型的权重以 Safetensors 格式提供。
点击下载,可在“文件与版本”标签中找到。
