🚀 GenEx-World-Initializer 🧭🌍
GenEx World Initializer 是一个基于 FluxFillPipeline 构建的全景图生成管道。它利用视觉条件修复技术,将单视图图像转换为360°全景图像。
- 🖼️ 输入:一张图像(任意尺寸,将被中心裁剪为正方形)
- 🧠 提示词:用于引导全景图生成的可选文本
- 🎯 输出:2048 × 1024 的等距柱状投影图像
- 🧩 掩码:使用固定的全景掩码
🚀 快速开始
GenEx World Initializer 能够高效地将单视图图像转换为全景图像,以下是使用该工具的基本步骤。
✨ 主要特性
- 强大的转换能力:可以将单张图像转换为 360°全景图像。
- 灵活的输入:支持任意尺寸的图像输入。
- 可选提示引导:可以使用文本提示来引导全景图的生成。
📦 安装指南
运行该项目需要安装以下依赖:
diffusers>=0.33.1
transformers
numpy
pillow
sentencepiece
💻 使用示例
基础用法
from diffusers import DiffusionPipeline
from PIL import Image
import torch
pipe = DiffusionPipeline.from_pretrained(
"genex-world/World-Initializer-image-to-panorama",
custom_pipeline="genex_world_initializer_pipeline",
torch_dtype=torch.bfloat16,
trust_remote_code=True
).to("cuda")
image = Image.open("example_input.jpg")
front_view, output = pipe(image=image)
output.images[0]
🏁 掩码
以下掩码用于训练图像修复扩散模型,并在推理时自动使用。

📚 详细文档
- 输入:一张图像,无论尺寸大小,系统会将其中心裁剪为正方形。
- 提示词:可提供可选的文本提示,以引导全景图的生成。
- 输出:生成 2048 × 1024 的等距柱状投影图像。
- 掩码:使用固定的全景掩码进行处理。
🔧 技术细节
GenEx World Initializer 基于 FluxFillPipeline 构建,利用视觉条件修复技术实现单视图图像到 360°全景图像的转换。
📄 许可证
本项目采用 CC BY 4.0 许可证。
✨ BibTex
@misc{lu2025genexgeneratingexplorableworld,
title={GenEx: Generating an Explorable World},
author={Taiming Lu and Tianmin Shu and Junfei Xiao and Luoxin Ye and Jiahao Wang and Cheng Peng and Chen Wei and Daniel Khashabi and Rama Chellappa and Alan Yuille and Jieneng Chen},
year={2025},
eprint={2412.09624},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2412.09624},
}