🚀 InfiniteYouモデルカード
このリポジトリは、以下の論文の公式モデルを提供しています。
このモデルは、柔軟で高忠実度な人物のアイデンティティを保持した画像生成を可能にする、革新的なフレームワークです。

InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
Liming Jiang,
Qing Yan,
Yumin Jia,
Zichuan Liu,
Hao Kang,
Xin Lu
ByteDance Intelligent Creation
概要: 高度な拡散トランスフォーマー(DiTs)であるFLUXなどを用いて、柔軟で高忠実度なアイデンティティを保持した画像生成を実現することは依然として困難です。我々は、このタスクにDiTsを活用した初期の堅牢なフレームワークであるInfiniteYou (InfU) を導入します。InfUは、既存の方法の重大な問題、例えばアイデンティティの類似度が不十分、テキストと画像のアライメントが不十分、生成品質と美学性が低いなどを解決します。InfUの中心的な要素はInfuseNetであり、これは残差接続を介してアイデンティティ特徴をDiTベースモデルに注入し、生成能力を維持しながらアイデンティティの類似度を向上させます。事前学習と合成単一人複数サンプル(SPMS)データを用いた教師あり微調整(SFT)を含む多段階学習戦略は、テキストと画像のアライメントをさらに改善し、画像品質を向上させ、顔のコピーペースト問題を軽減します。広範な実験により、InfUが既存のベースラインを上回る最先端の性能を達成することが示されています。さらに、InfUのプラグアンドプレイ設計は、様々な既存の方法との互換性を保証し、幅広いコミュニティに貴重な貢献を提供します。
🚀 クイックスタート
このセクションでは、InfiniteYouモデルのインストールと使用方法について説明します。
📦 インストール
GitHubのコードリポジトリをクローンし、詳細な手順に従って、リリースされたモデルをローカル推論用にインストールして使用してください。
Hugging FaceチームからのGPUグラントに感謝します。また、InfiniteYou-FLUXのHugging Faceデモをオンラインで試すこともできます。
💡 使用例
重要な使用上のヒント
- InfiniteYou-FLUX v1.0の2つのモデルバリアントをリリースしました: aes_stage2 と sim_stage1。
aes_stage2
は2段階目のSFT後のモデルで、テキストと画像のアライメントと美学性が良好なため、デフォルトで使用されます。より高いID類似度を達成したい場合は、sim_stage1
を試してください。
- 特定の個人ニーズにより適合させるために、コード で調整すると非常に役立つ2つの引数があることがわかりました:
--infusenet_conditioning_scale
(デフォルト: 1.0
) と --infusenet_guidance_start
(デフォルト: 0.0
)。通常はこれらを調整する必要はありません。必要な場合は、まず少し大きい --infusenet_guidance_start
(例: 0.1
) を試してみてください(特に sim_stage1
に役立ちます)。それでも満足できない場合は、少し小さい --infusenet_conditioning_scale
(例: 0.9
) を試してみてください。
- 追加の使用の柔軟性を可能にするために、2つのLoRA (Realism と Anti-blur) も提供しています。必要な場合は、まず
Realism
のみを試してみてください。これらは完全にオプションであり、試す例であり、論文で使用されているわけではありません。
- 生成される性別が好ましくない場合は、テキストプロンプトに 'a man'、'a woman' などの特定の単語を追加してみてください。包括的で礼儀正しい言葉の使用を推奨します。
🏰 モデルズー
🆚 最先端の関連手法との比較

InfUと最先端のベースラインであるFLUX.1-dev IP-AdapterおよびPuLID-FLUXとの定性的な比較結果です。FLUX.1-dev IP-Adapter (IPA) によって生成された結果のアイデンティティの類似度とテキストと画像のアライメントは不十分です。PuLID-FLUXは適度なアイデンティティの類似度を持つ画像を生成します。しかし、テキストと画像のアライメントが不十分で(1、2、4列)、画像品質(例えば5列の手の不自然さ)と美学性が低下しています。さらに、PuLID-FLUXの顔のコピーペースト問題が明らかです(5列)。これに対して、提案されたInfUはすべての次元でベースラインを上回っています。
🔧 技術詳細
既存の人気アプローチとのプラグアンドプレイ特性

InfUは望ましいプラグアンドプレイ設計を持ち、多くの既存の方法と互換性があります。FLUX.1-devの任意のバリアント、例えばより効率的な生成(例えば4ステップで)のためのFLUX.1-schnellなどでベースモデルを自然に置き換えることをサポートします。ControlNetsやLoRAsとの互換性は、カスタマイズされたタスクに対してより多くの制御性と柔軟性を提供します。特に、OminiControlとの互換性は、相互作用するアイデンティティ(ID)やオブジェクトのパーソナライズされた生成など、多概念のパーソナライゼーションの可能性を拡大します。InfUはまた、IP-Adapter (IPA) と互換性があり、個人化された画像のスタイル化に使用でき、IPAを介してスタイル参照を注入すると適度な結果を生み出します。我々のプラグアンドプレイ機能はさらに多くのアプローチに拡張される可能性があり、幅広いコミュニティに貴重な貢献を提供します。
📄 ライセンス
このリポジトリと関連するデモで使用されている画像は、同意を得た被験者から取得されたもの、またはモデルによって生成されたものです。これらの画像は、私たちの研究の能力を展示するためのみに意図されています。何かご懸念がある場合は、遠慮なくご連絡ください。不適切なコンテンツはすぐに削除します。
私たちのモデルは、学術研究目的のみで Creative Commons Attribution-NonCommercial 4.0 International Public License の下でリリースされています。InsightFace からの顔モデル、FLUX.1-dev ベースモデル、LoRAs (Realism および Anti-blur) などの手動または自動のダウンロードは、それらの元のライセンスに従い、学術研究目的のみで使用する必要があります。
この研究は、生成AIの分野に前向きな影響を与えることを目的としています。この方法の使用はすべて責任を持って行われ、地元の法律に準拠する必要があります。開発者は、潜在的な誤用に対して一切の責任を負いません。
📖 引用
InfiniteYouがあなたの研究やアプリケーションに役立つと思われる場合は、以下の論文を引用してください。
@article{jiang2025infiniteyou,
title={{InfiniteYou}: Flexible Photo Recrafting While Preserving Your Identity},
author={Jiang, Liming and Yan, Qing and Jia, Yumin and Liu, Zichuan and Kang, Hao and Lu, Xin},
journal={arXiv preprint},
volume={arXiv:2503.16418},
year={2025}
}
また、Githubリポジトリにスター⭐を付けていただけると幸いです。よろしくお願いします!