🚀 InfiniteYou模型卡
InfiniteYou是一个用于文本到图像生成的模型,它能够在保留人物身份的同时进行灵活的照片重塑,解决了现有方法中身份相似度不足、文本 - 图像对齐不佳以及生成质量和美学效果低等问题。
🚀 快速开始
本仓库提供了以下论文的官方模型:
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
Liming Jiang,
Qing Yan,
Yumin Jia,
Zichuan Liu,
Hao Kang,
Xin Lu
ByteDance Intelligent Creation
摘要:实现灵活且高保真的身份保留图像生成仍然是一项艰巨的任务,特别是对于像FLUX这样的先进扩散变换器(DiTs)。我们推出了InfiniteYou (InfU),这是最早利用DiTs完成此任务的强大框架之一。InfU解决了现有方法的重大问题,如身份相似度不足、文本 - 图像对齐不佳以及生成质量和美学效果低等。InfU的核心是InfuseNet,它通过残差连接将身份特征注入到DiT基础模型中,在保持生成能力的同时提高了身份相似度。一种多阶段训练策略,包括预训练和使用合成单人多样本(SPMS)数据进行有监督微调(SFT),进一步改善了文本 - 图像对齐,提高了图像质量,并缓解了面部复制粘贴问题。大量实验表明,InfU达到了最先进的性能,超越了现有的基线模型。此外,InfU的即插即用设计确保了与各种现有方法的兼容性,为更广泛的社区做出了有价值的贡献。
📦 安装指南
请克隆我们的 GitHub代码仓库,并按照 详细说明 安装和使用已发布的模型进行本地推理。
我们感谢Hugging Face团队提供的GPU支持。你也可以在线尝试我们的 InfiniteYou - FLUX Hugging Face演示。
💡 使用建议
⚠️ 重要提示
以下是使用InfiniteYou - FLUX v1.0模型的一些重要提示,请仔细阅读。
💡 使用建议
- 我们发布了InfiniteYou - FLUX v1.0的两个模型变体:aes_stage2 和 sim_stage1。
aes_stage2
是我们经过第二阶段SFT后的模型,默认使用该模型以获得更好的文本 - 图像对齐和美学效果。如果你希望实现更高的身份相似度,请尝试使用 sim_stage1
。
- 为了更好地满足特定的个人需求,我们发现调整我们 代码 中的两个参数非常有用:
--infusenet_conditioning_scale
(默认值:1.0
)和 --infusenet_guidance_start
(默认值:0.0
)。通常情况下,你可能不需要调整它们。如有必要,可先尝试稍微增大 --infusenet_guidance_start
(例如,0.1
)(这对 sim_stage1
尤其有帮助)。如果仍然不满意,再尝试稍微减小 --infusenet_conditioning_scale
(例如,0.9
)。
- 我们还提供了两个LoRA模型(Realism 和 Anti - blur),以增加使用的灵活性。如果需要,可先仅尝试使用
Realism
。这些都是完全可选的,它们是可供尝试的示例,但在我们的论文中并未使用。
- 如果生成的性别不符合你的偏好,请尝试在文本提示中添加特定的词语,如“一个男人”、“一个女人”等。我们鼓励使用包容和尊重的语言。
🏰 模型库
🆚 与最先进相关方法的比较

InfU与最先进的基线模型FLUX.1 - dev IP - Adapter和PuLID - FLUX的定性比较结果。FLUX.1 - dev IP - Adapter(IPA)生成结果的身份相似度和文本 - 图像对齐不足。PuLID - FLUX生成的图像具有不错的身份相似度,但存在文本 - 图像对齐不佳的问题(第1、2、4列),并且图像质量(如第5列中的手部效果不佳)和美学吸引力有所下降。此外,PuLID - FLUX的面部复制粘贴问题很明显(第5列)。相比之下,所提出的InfU在所有方面都优于基线模型。
⚙️ 与现成流行方法的即插即用特性

InfU具有理想的即插即用设计,与许多现有方法兼容。它自然支持用FLUX.1 - dev的任何变体替换基础模型,例如使用FLUX.1 - schnell进行更高效的生成(例如,在4步内完成)。与ControlNets和LoRAs的兼容性为定制任务提供了更多的可控性和灵活性。值得注意的是,与OminiControl的兼容性扩展了我们进行多概念个性化的潜力,例如交互式身份(ID)和对象个性化生成。InfU还与IP - Adapter(IPA)兼容,可用于个性化图像的风格化,通过IPA注入风格参考时能产生不错的结果。我们的即插即用特性可能会扩展到更多的方法,为更广泛的社区做出有价值的贡献。
📜 免责声明和许可证
本仓库和相关演示中使用的图像来自已同意的受试者或由模型生成。这些图片仅用于展示我们研究的能力。如果你有任何疑虑,请随时与我们联系,我们将立即删除任何不适当的内容。
我们的模型根据 知识共享署名 - 非商业性使用4.0国际公共许可证 发布,仅用于学术研究目的。从 InsightFace、FLUX.1 - dev 基础模型、LoRAs(Realism 和 Anti - blur)等手动或自动下载人脸模型时,必须遵循其原始许可证,并仅用于学术研究目的。
本研究旨在对生成式AI领域产生积极影响。使用此方法必须负责任,并遵守当地法律。开发者不对任何潜在的滥用行为承担责任。
📖 引用
如果你发现InfiniteYou对你的研究或应用有用,请引用我们的论文:
@article{jiang2025infiniteyou,
title={{InfiniteYou}: Flexible Photo Recrafting While Preserving Your Identity},
author={Jiang, Liming and Yan, Qing and Jia, Yumin and Liu, Zichuan and Kang, Hao and Lu, Xin},
journal={arXiv preprint},
volume={arXiv:2503.16418},
year={2025}
}
如果你能给我们的 Github仓库 点个星⭐,我们将不胜感激。非常感谢!