Uniworld V1
モデル概要
モデル特徴
モデル能力
使用事例
🚀 UniWorld: 統一的な視覚理解と生成のための高解像度セマンティックエンコーダ
UniWorldは、理解、生成、編集を統合したフレームワークです。20以上のタスクで優れた性能を発揮し、データ、モデル、学習コード、評価コードがすべてオープンソースとなっています。
🚀 クイックスタート
2025年6月3日に、理解、生成、編集を統合したフレームワークであるUniWorldをリリースしました。すべてのデータ、モデル、学習コード、および評価コードがオープンソース化されています。詳細については、レポートをご覧ください。最新の更新情報を得るために、このリポジトリを「ウォッチ」することをお勧めします。
UniWorld: High-Resolution Semantic Encoders for
Unified Visual Understanding and Generation
[](https://github.com/user-attachments/files/20573816/report.pdf)
[](https://huggingface.co/LanguageBind/UniWorld-V1)
[](https://huggingface.co/datasets/LanguageBind/UniWorld-V1)
[](https://github.com/PKU-YuanGroup/UniWorld/blob/main/LICENSE)
[](https://x.com/LinBin46984/status/1929905024349679682)
[](http://8.130.165.159:8800/)
[](http://8.130.165.159:8801/)
[](http://8.130.165.159:8802/)
[](http://8.130.165.159:8803/)
[](http://8.130.165.159:8804/)
[](http://8.130.165.159:8805/)
[](http://8.130.165.159:8806/)
[](http://8.130.165.159:8807/)
[](https://github.com/PKU-YuanGroup/UniWorld-V1/stargazers)
[](https://github.com/PKU-YuanGroup/UniWorld-V1/network)
[](https://github.com/PKU-YuanGroup/UniWorld-V1/watchers)
[](https://github.com/PKU-YuanGroup/UniWorld-V1/archive/refs/heads/main.zip)
[](https://github.com/PKU-YuanGroup/UniWorld-V1/graphs/contributors)
[](https://github.com/PKU-YuanGroup/UniWorld-V1/commits/main/)
[](https://github.com/PKU-YuanGroup/UniWorld-V1/pulls)
[](https://github.com/PKU-YuanGroup/UniWorld-V1/issues?q=is%3Aopen+is%3Aissue)
[](https://github.com/PKU-YuanGroup/UniWorld-V1/issues?q=is%3Aissue+is%3Aclosed)
✨ 主な機能
1. すべてのリソースが完全にオープンソース化
- モデル、データ、学習コード、評価コードを完全にオープンソース化し、コミュニティによる統一アーキテクチャの迅速な探索を促進します。
- canny、depth、sketch、MLSD、segmentationなど、10以上のコンピュータビジョンの下流タスクを整理しました。
- Qwen2-VL-72Bを使用して286Kの長文キャプションサンプルをアノテーションしました。GPT-4oを使用してImgEditをフィルタリングし、724Kの高品質な編集サンプル(すべて短辺が1024ピクセル以上)を得ました。さらに、既存のオープンソースデータセットを整理し、フィルタリングしました。詳細はこちらを参照してください。
2. コントラストセマンティックエンコーダを参照制御信号として使用
- 以前のアプローチではVAEエンコードされた参照画像を低レベル制御に使用していましたが、私たちは参照画像の制御信号としてコントラストビジュアルエンコーダを使用することを提唱しています。
- このようなエンコーダでは、解像度が上がるにつれてグローバルな特徴が飽和し、モデルの能力が細かい詳細の保存にシフトすることが観察されており、これは編集されていない領域の忠実度を維持するために重要です。
3. 学習可能なトークンを使用せずにVLMエンコーディングによる画像プライオ
- VLMによってエンコードされたマルチモーダル特徴が、画像プライオを保持しながら指示を解釈できることがわかりました。因果的な注意のため、
<instruction><image>
の形式が特に重要です。
📦 インストール
リポジトリのクローン
git clone https://github.com/PKU-YuanGroup/UniWorld
cd UniWorld
必要なパッケージのインストール
conda create -n univa python=3.10 -y
conda activate univa
pip install -r requirements.txt
💻 使用例
Gradio Web UI
以下のコマンドを実行して、Webデモを試すことをお勧めします。
MODEL_PATH="path/to/model"
FLUX_PATH="path/to/flux"
SIGLIP_PATH="path/to/siglip"
CUDA_VISIBLE_DEVICES=0 python -m univa.serve.gradio_web_server \
--model_path ${MODEL_PATH} \
--flux_path ${FLUX_PATH} \
--siglip_path ${SIGLIP_PATH}
CLI Inference
MODEL_PATH="path/to/model"
FLUX_PATH="path/to/flux"
SIGLIP_PATH="path/to/siglip"
CUDA_VISIBLE_DEVICES=1 python -m univa.serve.cli \
--model_path ${MODEL_PATH} \
--flux_path ${FLUX_PATH} \
--siglip_path ${SIGLIP_PATH}
ComfyUI
近日公開予定です。
📚 ドキュメント
学習
データの準備
LanguageBind/UniWorld-V1からデータをダウンロードします。データセットはソース画像とアノテーションJSONファイルの2つの部分で構成されています。
data.txt
ファイルを以下の形式で準備します。
- 最初の列は画像のルートパスです。
- 2番目の列は対応するアノテーションJSONファイルです。
- 3番目の列は領域重み付け戦略を有効にするかどうかを示します。編集データについてはTrueに設定し、それ以外のデータについてはFalseに設定することをお勧めします。
data/BLIP3o-60k,json/blip3o_t2i_58859.json,false
data/coco2017_caption_canny-236k,coco2017_canny_236574.json,false
data/imgedit,json/imgedit/laion_add_part0_edit.json,true
data.txt
のパスが正しく設定されているかどうかを確認するための簡単なオンライン検証ツールを用意しています。
python univa/serve/check_data.py
データの詳細
テキストから画像の生成
- [BLIP3o-60k](https://huggingface.co/datasets/BLIP3o/BLIP3o-60k): データの半分にテキストから画像の指示を追加しました。[108 GBのストレージ使用量。] - [OSP1024-286k](https://huggingface.co/datasets/LanguageBind/UniWorld-V1/tree/main/data/OSP1024-286k): [Open-Sora Plan](https://github.com/PKU-YuanGroup/Open-Sora-Plan)の内部データから取得され、[Qwen2-VL-72B](https://huggingface.co/Qwen/Qwen2-VL-72B-Instruct)を使用してキャプションが生成されています。画像のアスペクト比は3:4から4:3の間で、美学スコアが6以上、短辺が1024ピクセル以上です。[326 GBのストレージ使用量。]
画像編集
- [imgedit-724k](https://huggingface.co/datasets/sysuyy/ImgEdit/tree/main): データはGPT-4oを使用してフィルタリングされ、約半分が残されています。[2.1Tのストレージ使用量。] - [OmniEdit-368k](https://huggingface.co/datasets/TIGER-Lab/OmniEdit-Filtered-1.2M): 画像編集データについては、編集領域が1/100未満のサンプルがフィルタリングされています。画像の短辺は1024ピクセル以上です。[204 GBのストレージ使用量。] - [SEED-Data-Edit-Part1-Openimages-65k](https://huggingface.co/datasets/AILab-CVC/SEED-Data-Edit-Part1-Openimages): 画像編集データについては、編集領域が1/100未満のサンプルがフィルタリングされています。画像の短辺は1024ピクセル以上です。[10 GBのストレージ使用量。] - [SEED-Data-Edit-Part2-3-12k](https://huggingface.co/datasets/AILab-CVC/SEED-Data-Edit-Part2-3): 画像編集データについては、編集領域が1/100未満のサンプルがフィルタリングされています。画像の短辺は1024ピクセル以上です。[10 GBのストレージ使用量。] - [PromptfixData-18k](https://huggingface.co/datasets/yeates/PromptfixData): 画像修復データと一部の編集データについては、編集領域が1/100未満のサンプルがフィルタリングされています。画像の短辺は1024ピクセル以上です。[9 GBのストレージ使用量。] - [StyleBooth-11k](https://huggingface.co/scepter-studio/stylebooth): スタイル転送データについては、画像の短辺は1024ピクセル以上です。[4 GBのストレージ使用量。] - [Ghibli-36k](https://huggingface.co/datasets/LanguageBind/UniWorld-V1/tree/main/data/Ghibli-36k): スタイル転送データについては、画像の短辺は1024ピクセル以上です。**注意: このデータは品質フィルタリングされていません。** [170 GBのストレージ使用量。]
抽出と試着
- [viton_hd-23k](https://huggingface.co/datasets/forgeml/viton_hd): ソースデータから商品抽出のための指示データセットに変換されています。[1 GBのストレージ使用量。] - [deepfashion-27k](https://huggingface.co/datasets/lirus18/deepfashion): ソースデータから商品抽出のための指示データセットに変換されています。[1 GBのストレージ使用量。] - [shop_product-23k](https://huggingface.co/datasets/LanguageBind/UniWorld-V1/tree/main/data/shop_product-23k): [Open-Sora Plan](https://github.com/PKU-YuanGroup/Open-Sora-Plan)の内部データから取得され、商品抽出と仮想試着に焦点を当てています。画像の短辺は1024ピクセル以上です。[12 GBのストレージ使用量。]
画像知覚
- [coco2017_caption_canny-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_canny): img->canny & canny->img [25 GBのストレージ使用量。] - [coco2017_caption_depth-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_depth): img->depth & depth->img [8 GBのストレージ使用量。] - [coco2017_caption_hed-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_hed): img->hed & hed->img [13 GBのストレージ使用量。] - [coco2017_caption_mlsd-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_mlsd): img->mlsd & mlsd->img [ GBのストレージ使用量。] - [coco2017_caption_normal-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_normal): img->normal & normal->img [10 GBのストレージ使用量。] - [coco2017_caption_openpose-62k](https://huggingface.co/datasets/wangherr/coco2017_caption_openpose): img->pose & pose->img [2 GBのストレージ使用量。] - [coco2017_caption_sketch-236k](https://huggingface.co/datasets/wangherr/coco2017_caption_sketch): img->sketch & sketch->img [15 GBのストレージ使用量。] - [unsplash_canny-20k](https://huggingface.co/datasets/wtcherr/unsplash_10k_canny): img->canny & canny->img [2 GBのストレージ使用量。] - [open_pose-40k](https://huggingface.co/datasets/raulc0399/open_pose_controlnet): img->pose & pose->img [4 GBのストレージ使用量。] - [mscoco-controlnet-canny-less-colors-236k](https://huggingface.co/datasets/hazal-karakus/mscoco-controlnet-canny-less-colors): img->canny & canny->img [13 GBのストレージ使用量。] - [coco2017_seg_box-448k](https://huggingface.co/datasets/LanguageBind/UniWorld-V1/tree/main/data/coco2017_seg_box-448k): img->detection & img->segmentation (mask)、領域が1/100未満のインスタンスがフィルタリングされています。元の画像にマスクを可視化したgt-imageとして表示します。[39 GBのストレージ使用量。] - [viton_hd-11k](https://huggingface.co/datasets/forgeml/viton_hd): img->pose [1 GBのストレージ使用量。] - [deepfashion-13k](https://huggingface.co/datasets/lirus18/deepfashion): img->pose [1 GBのストレージ使用量。]
学習
事前学習済みの重みの準備
black-forest-labs/FLUX.1-devを$FLUX_PATH
にダウンロードします。
Qwen/Qwen2.5-VL-7B-Instructを$QWENVL_PATH
にダウンロードします。他のサイズのQwen2.5-VLもサポートしています。
SAVE_PATH="path/to/save/UniWorld-Qwen2.5-VL-7B-Instruct-FLUX.1-dev-fp32"
python scripts/make_univa_qwen2p5vl_weight.py \
--origin_flux_ckpt_path $FLUX_PATH \
--origin_qwenvl_ckpt_path $QWENVL_PATH \
--save_path ${SAVE_PATH}
# stage1
bash scripts/denoiser/flux_qwen2p5vl_7b_vlm_stage1_512.sh
flux-redux-siglipv2-512.binをダウンロードし、stage2.yaml
のpretrained_siglip_mlp_path
にそのパスを設定します。この重みはostris/Flex.1-alpha-Reduxから取得されており、私たちは重みを再編成しています。
# stage2
bash scripts/denoiser/flux_qwen2p5vl_7b_vlm_stage2_512.sh
評価
テキストから画像の生成
GenEval
``` cd univa/eval/geneval # univa/eval/geneval/README.mdの指示に従ってください ```
WISE
``` cd univa/eval/wise # univa/eval/wise/README.mdの指示に従ってください ```
GenAI-Bench
``` cd univa/eval/genai # univa/eval/genai/README.mdの指示に従ってください ```
DPG-Bench
``` cd univa/eval/dpgbench # univa/eval/dpgbench/README.mdの指示に従ってください ```
画像編集
ImgEdit
``` cd univa/eval/imgedit # univa/eval/imgedit/README.mdの指示に従ってください ```
GEdit
``` cd univa/eval/gdit # univa/eval/gdit/README.mdの指示に従ってください ```
🔧 技術詳細
UniWorldは、20以上のタスクで優れた性能を発揮します。たった270万のサンプルで学習されたUniWorldは、画像操作のためのImgEdit-BenchでBAGEL(2665万のサンプルで学習)を常に上回ります。また、ImgEdit-Benchのadd、adjust、extractなどの複数の次元で、専用の画像編集モデルStep1X-Editを上回っています。
📄 ライセンス
詳細については、LICENSEを参照してください。FLUXの重みはFLUX.1 [dev] Non-Commercial Licenseの対象となります。
🌟 Star History
🔍 引用
@misc{lin2025uniworldhighresolutionsemanticencoders,
title={UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation},
author={Bin Lin and Zongjian Li and Xinhua Cheng and Yuwei Niu and Yang Ye and Xianyi He and Shenghai Yuan and Wangbo Yu and Shaodong Wang and Yunyang Ge and Yatian Pang and Li Yuan},
year={2025},
eprint={2506.03147},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2506.03147},
}
@article{niu2025wise,
title={Wise: A world knowledge-informed semantic evaluation for text-to-image generation},
author={Niu, Yuwei and Ning, Munan and Zheng, Mengren and Lin, Bin and Jin, Peng and Liao, Jiaqi and Ning, Kunpeng and Zhu, Bin and Yuan, Li},
journal={arXiv preprint arXiv:2503.07265},
year={2025}
}
@article{lin2024open,
title={Open-Sora Plan: Open-Source Large Video Generation Model},
author={Lin, Bin and Ge, Yunyang and Cheng, Xinhua and Li, Zongjian and Zhu, Bin and Wang, Shaodong and He, Xianyi and Ye, Yang and Yuan, Shenghai and Chen, Liuhan and others},
journal={arXiv preprint arXiv:2412.00131},
year={2024}
}
👥 コミュニティの貢献者
このモデルは論文UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generationで紹介されています。









