🚀 GenEx-World-Initializer 🧭🌍
GenEx World Initializer 是一個基於 FluxFillPipeline 構建的全景圖生成管道。它利用視覺條件修復技術,將單視圖圖像轉換為360°全景圖像。
- 🖼️ 輸入:一張圖像(任意尺寸,將被中心裁剪為正方形)
- 🧠 提示詞:用於引導全景圖生成的可選文本
- 🎯 輸出:2048 × 1024 的等距柱狀投影圖像
- 🧩 掩碼:使用固定的全景掩碼
🚀 快速開始
GenEx World Initializer 能夠高效地將單視圖圖像轉換為全景圖像,以下是使用該工具的基本步驟。
✨ 主要特性
- 強大的轉換能力:可以將單張圖像轉換為 360°全景圖像。
- 靈活的輸入:支持任意尺寸的圖像輸入。
- 可選提示引導:可以使用文本提示來引導全景圖的生成。
📦 安裝指南
運行該項目需要安裝以下依賴:
diffusers>=0.33.1
transformers
numpy
pillow
sentencepiece
💻 使用示例
基礎用法
from diffusers import DiffusionPipeline
from PIL import Image
import torch
pipe = DiffusionPipeline.from_pretrained(
"genex-world/World-Initializer-image-to-panorama",
custom_pipeline="genex_world_initializer_pipeline",
torch_dtype=torch.bfloat16,
trust_remote_code=True
).to("cuda")
image = Image.open("example_input.jpg")
front_view, output = pipe(image=image)
output.images[0]
🏁 掩碼
以下掩碼用於訓練圖像修復擴散模型,並在推理時自動使用。

📚 詳細文檔
- 輸入:一張圖像,無論尺寸大小,系統會將其中心裁剪為正方形。
- 提示詞:可提供可選的文本提示,以引導全景圖的生成。
- 輸出:生成 2048 × 1024 的等距柱狀投影圖像。
- 掩碼:使用固定的全景掩碼進行處理。
🔧 技術細節
GenEx World Initializer 基於 FluxFillPipeline 構建,利用視覺條件修復技術實現單視圖圖像到 360°全景圖像的轉換。
📄 許可證
本項目採用 CC BY 4.0 許可證。
✨ BibTex
@misc{lu2025genexgeneratingexplorableworld,
title={GenEx: Generating an Explorable World},
author={Taiming Lu and Tianmin Shu and Junfei Xiao and Luoxin Ye and Jiahao Wang and Cheng Peng and Chen Wei and Daniel Khashabi and Rama Chellappa and Alan Yuille and Jieneng Chen},
year={2025},
eprint={2412.09624},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2412.09624},
}