PhotoMakerオープンソーステキスト - 画像モデル - トレーニング不要で写真とテキストで迅速にカスタム作品を生成

Photomaker

TencentARCによって開発

PhotoMakerはテキストから画像を生成するモデルで、入力された顔写真とテキストプロンプトからトレーニング不要でカスタマイズされた写真や絵画作品を迅速に生成できます。

画像生成英語オープンソースライセンス:Apache-2.0 #トレーニング不要のカスタマイズ #複数画像融合 #クロススタイル生成

ダウンロード数 25.88k

リリース時間 : 1/13/2024

モデル概要

PhotoMakerでは、1枚または複数の顔写真とテキストプロンプトを入力することで、数秒でカスタマイズされた写真や絵画作品を取得できます。このモデルはSDXLベースのあらゆる基礎モデルに適応可能で、他のLoRAモジュールと組み合わせて使用することもできます。

モデル特徴

トレーニング不要

ユーザーは顔写真とテキストプロンプトを入力するだけでカスタマイズ画像を生成でき、追加のトレーニングは必要ありません。

マルチスタイル対応

SDXLベースのあらゆる基礎モデルに適応可能で、写実的から芸術的まで様々なスタイルをサポートします。

高速生成

数秒で高品質なカスタマイズ画像を生成できます。

複数写真入力

1枚または複数の顔写真を入力してパーソナライズド生成が可能です。

モデル能力

テキストから画像生成

顔カスタマイズ

マルチスタイル画像生成

高速推論

使用事例

パーソナライズド画像生成

写実スタイルの肖像画

顔写真とテキストプロンプトを入力して写実スタイルのパーソナライズド肖像画を生成します。

高品質な写実スタイルの肖像画像

アートスタイル創作

アートスタイルの基礎モデルと組み合わせて芸術的なパーソナライズド画像を生成します。

多様なアートスタイル画像

クリエイティブデザイン

キャラクターデザイン

ゲームやアニメなどの分野でのキャラクターイメージデザインに使用できます。

パーソナライズドなキャラクターイメージ

🚀 PhotoMakerモデルカード

このモデルは、ユーザーが1枚または数枚の顔写真とテキストプロンプトを入力することで、数秒でカスタマイズされた写真や絵を生成できます（トレーニング不要！）。また、SDXLベースのモデルに適応させたり、他のLoRAモジュールと組み合わせて使用することも可能です。

プロジェクトページ | 論文 (ArXiv) | コード

🤗 Gradioデモ (リアルな結果) | 🤗 Gradioデモ (スタイル化)

🚀 クイックスタート

ユーザーは1枚または数枚の顔写真とテキストプロンプトを入力することで、数秒でカスタマイズされた写真や絵を受け取ることができます（トレーニング不要！）。さらに、このモデルはSDXLベースの任意のベースモデルに適応させることができ、他のLoRAモジュールと組み合わせて使用することもできます。

リアルな結果

image/jpeg

スタイル化された結果

image/jpeg

より多くの結果は、プロジェクトページで確認できます。

✨ 主な機能

このモデルは、ユーザーが顔写真とテキストプロンプトを入力することで、カスタマイズされた写真や絵を生成できます。また、SDXLベースのモデルに適応させたり、他のLoRAモジュールと組み合わせて使用することが可能です。

📚 ドキュメント

モデルの詳細

ロードされた状態辞書の2つのキーに対応する2つの部分が主に含まれています。

id_encoderには、微調整されたOpenCLIP-ViT-H-14といくつかの融合レイヤーが含まれています。
lora_weightsは、UNetのすべてのアテンションレイヤーに適用され、ランクは64に設定されています。

使用方法

このリポジトリから直接モデルをダウンロードすることも、Pythonスクリプトでダウンロードすることもできます。

from huggingface_hub import hf_hub_download
photomaker_ckpt = hf_hub_download(repo_id="TencentARC/PhotoMaker", filename="photomaker-v1.bin", repo_type="model")

その後、GitHubリポジトリの指示に従ってください。

制限事項

このモデルは、アジア男性の顔に対するカスタマイズ性能が低下します。
モデルは、人間の手を正確にレンダリングすることが依然として困難です。

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。

引用

BibTeX:

@inproceedings{li2023photomaker,
  title={PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding},
  author={Li, Zhen and Cao, Mingdeng and Wang, Xintao and Qi, Zhongang and Cheng, Ming-Ming and Shan, Ying},
  booktitle={IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2024}
}