UniWorld-V1オープンソースビジュアルモデル - 無料でデプロイ可能で、ビジュアル理解、生成、編集などの多様なタスクをサポート

ホーム

Uniworld V1

LanguageBindによって開発

UniWorldは、ビジュアル理解、生成、編集のための統一フレームワークで、20以上のビジュアルタスクで優れた性能を発揮します。

テキスト生成画像

Safetensors

オープンソースライセンス:MIT #高解像度セマンティックエンコーディング #マルチタスクビジュアル統一フレームワーク #画像生成と編集

ダウンロード数 253

リリース時間 : 5/21/2025

モデル概要

UniWorldは、ビジュアル理解、生成、編集タスクをサポートする統一的なビジュアルフレームワークです。高解像度セマンティックエンコーダを採用し、様々なビジュアルタスクで優れた性能を発揮し、すべてのリソースが完全にオープンソースです。

モデル特徴

完全オープンソース

モデル、データ、トレーニングと評価コードがすべてオープンソースで、コミュニティが統一アーキテクチャを探索しやすくなります。

高解像度セマンティックエンコーディング

対比ビジュアルエンコーダを参照制御信号として使用し、細かい詳細を保持します。

マルチタスク統一フレームワーク

エッジ検出、深度推定、画像分割など20種類以上のビジュアルタスクをサポートします。

高品質データセット

286Kの長い説明サンプルと724Kの高品質編集サンプルを含み、画像の短辺が1024ピクセル以上です。

モデル能力

テキストから画像生成

画像編集

画像理解

エッジ検出

深度推定

スケッチ描画

線分検出

画像分割

製品抽出

バーチャル試着

使用事例

画像生成

テキストから画像生成

テキスト記述に基づいて高品質な画像を生成します。

GenEval、WISEなどのベンチマークテストで優れた性能を発揮します。

画像編集

指令による編集

自然言語指令に基づいて画像を編集します。

ImgEdit - BenchでBAGELとStep1X - Editを上回ります。

スタイル転送

画像を特定のアートスタイルに変換します。

複数のスタイル変換をサポートします。

ビジュアル理解

エッジ検出

画像からエッジ情報を抽出します。

高精度なエッジ抽出

深度推定

画像の深度情報を推定します。

正確な深度マップ生成

🚀 UniWorld: 統一的な視覚理解と生成のための高解像度セマンティックエンコーダ

UniWorldは、理解、生成、編集を統合したフレームワークです。20以上のタスクで優れた性能を発揮し、データ、モデル、学習コード、評価コードがすべてオープンソースとなっています。

🚀 クイックスタート

2025年6月3日に、理解、生成、編集を統合したフレームワークであるUniWorldをリリースしました。すべてのデータ、モデル、学習コード、および評価コードがオープンソース化されています。詳細については、レポートをご覧ください。最新の更新情報を得るために、このリポジトリを「ウォッチ」することをお勧めします。

UniWorld: High-Resolution Semantic Encoders for
Unified Visual Understanding and Generation

[![arXiv](https://img.shields.io/badge/Arxiv-Report%20-b31b1b.svg?logo=arXiv)](https://github.com/user-attachments/files/20573816/report.pdf) [![model](https://img.shields.io/badge/ü§ó-Model-blue.svg)](https://huggingface.co/LanguageBind/UniWorld-V1) [![data](https://img.shields.io/badge/ü§ó-Dataset-blue.svg)](https://huggingface.co/datasets/LanguageBind/UniWorld-V1) [![License](https://img.shields.io/badge/License-Apache-yellow)](https://github.com/PKU-YuanGroup/UniWorld/blob/main/LICENSE) [![Twitter](https://img.shields.io/badge/-Twitter@LinBin46984-black?logo=twitter&logoColor=1D9BF0)](https://x.com/LinBin46984/status/1929905024349679682)
[![demo0](https://img.shields.io/badge/ü§ó-Demo0-blue.svg)](http://8.130.165.159:8800/) [![demo0](https://img.shields.io/badge/ü§ó-Demo1-blue.svg)](http://8.130.165.159:8801/) [![demo0](https://img.shields.io/badge/ü§ó-Demo2-blue.svg)](http://8.130.165.159:8802/) [![demo0](https://img.shields.io/badge/ü§ó-Demo3-blue.svg)](http://8.130.165.159:8803/) [![demo0](https://img.shields.io/badge/ü§ó-Demo4-blue.svg)](http://8.130.165.159:8804/) [![demo0](https://img.shields.io/badge/ü§ó-Demo5-blue.svg)](http://8.130.165.159:8805/) [![demo0](https://img.shields.io/badge/ü§ó-Demo6-blue.svg)](http://8.130.165.159:8806/) [![demo0](https://img.shields.io/badge/ü§ó-Demo7-blue.svg)](http://8.130.165.159:8807/)
[![GitHub repo stars](https://img.shields.io/github/stars/PKU-YuanGroup/UniWorld-V1?style=flat&logo=github&logoColor=whitesmoke&label=Stars)](https://github.com/PKU-YuanGroup/UniWorld-V1/stargazers) [![GitHub repo forks](https://img.shields.io/github/forks/PKU-YuanGroup/UniWorld-V1?style=flat&logo=github&logoColor=whitesmoke&label=Forks)](https://github.com/PKU-YuanGroup/UniWorld-V1/network) [![GitHub repo watchers](https://img.shields.io/github/watchers/PKU-YuanGroup/UniWorld-V1?style=flat&logo=github&logoColor=whitesmoke&label=Watchers)](https://github.com/PKU-YuanGroup/UniWorld-V1/watchers) [![GitHub repo size](https://img.shields.io/github/repo-size/PKU-YuanGroup/UniWorld-V1?style=flat&logo=github&logoColor=whitesmoke&label=Repo%20Size)](https://github.com/PKU-YuanGroup/UniWorld-V1/archive/refs/heads/main.zip)
[![GitHub repo contributors](https://img.shields.io/github/contributors-anon/PKU-YuanGroup/UniWorld-V1?style=flat&label=Contributors)](https://github.com/PKU-YuanGroup/UniWorld-V1/graphs/contributors) [![GitHub Commit](https://img.shields.io/github/commit-activity/m/PKU-YuanGroup/UniWorld-V1?label=Commit)](https://github.com/PKU-YuanGroup/UniWorld-V1/commits/main/) [![Pr](https://img.shields.io/github/issues-pr-closed-raw/PKU-YuanGroup/UniWorld-V1.svg?label=Merged+PRs&color=green)](https://github.com/PKU-YuanGroup/UniWorld-V1/pulls) [![GitHub issues](https://img.shields.io/github/issues/PKU-YuanGroup/UniWorld-V1?color=critical&label=Issues)](https://github.com/PKU-YuanGroup/UniWorld-V1/issues?q=is%3Aopen+is%3Aissue) [![GitHub closed issues](https://img.shields.io/github/issues-closed/PKU-YuanGroup/UniWorld-V1?color=success&label=Issues)](https://github.com/PKU-YuanGroup/UniWorld-V1/issues?q=is%3Aissue+is%3Aclosed)

✨ 主な機能

1. すべてのリソースが完全にオープンソース化

モデル、データ、学習コード、評価コードを完全にオープンソース化し、コミュニティによる統一アーキテクチャの迅速な探索を促進します。
canny、depth、sketch、MLSD、segmentationなど、10以上のコンピュータビジョンの下流タスクを整理しました。
Qwen2-VL-72Bを使用して286Kの長文キャプションサンプルをアノテーションしました。GPT-4oを使用してImgEditをフィルタリングし、724Kの高品質な編集サンプル（すべて短辺が1024ピクセル以上）を得ました。さらに、既存のオープンソースデータセットを整理し、フィルタリングしました。詳細はこちらを参照してください。

2. コントラストセマンティックエンコーダを参照制御信号として使用

以前のアプローチではVAEエンコードされた参照画像を低レベル制御に使用していましたが、私たちは参照画像の制御信号としてコントラストビジュアルエンコーダを使用することを提唱しています。
このようなエンコーダでは、解像度が上がるにつれてグローバルな特徴が飽和し、モデルの能力が細かい詳細の保存にシフトすることが観察されており、これは編集されていない領域の忠実度を維持するために重要です。

3. 学習可能なトークンを使用せずにVLMエンコーディングによる画像プライオ

VLMによってエンコードされたマルチモーダル特徴が、画像プライオを保持しながら指示を解釈できることがわかりました。因果的な注意のため、<instruction><image>の形式が特に重要です。

📦 インストール

リポジトリのクローン

git clone https://github.com/PKU-YuanGroup/UniWorld
cd UniWorld

必要なパッケージのインストール

conda create -n univa python=3.10 -y
conda activate univa
pip install -r requirements.txt

💻 使用例

Gradio Web UI

以下のコマンドを実行して、Webデモを試すことをお勧めします。

MODEL_PATH="path/to/model"
FLUX_PATH="path/to/flux"
SIGLIP_PATH="path/to/siglip"
CUDA_VISIBLE_DEVICES=0 python -m univa.serve.gradio_web_server \
    --model_path ${MODEL_PATH} \
    --flux_path ${FLUX_PATH} \
    --siglip_path ${SIGLIP_PATH}

CLI Inference

MODEL_PATH="path/to/model"
FLUX_PATH="path/to/flux"
SIGLIP_PATH="path/to/siglip"
CUDA_VISIBLE_DEVICES=1 python -m univa.serve.cli \
    --model_path ${MODEL_PATH} \
    --flux_path ${FLUX_PATH} \
    --siglip_path ${SIGLIP_PATH}

ComfyUI

近日公開予定です。

📚 ドキュメント

学習

データの準備

LanguageBind/UniWorld-V1からデータをダウンロードします。データセットはソース画像とアノテーションJSONファイルの2つの部分で構成されています。 data.txtファイルを以下の形式で準備します。

最初の列は画像のルートパスです。
2番目の列は対応するアノテーションJSONファイルです。
3番目の列は領域重み付け戦略を有効にするかどうかを示します。編集データについてはTrueに設定し、それ以外のデータについてはFalseに設定することをお勧めします。

data/BLIP3o-60k,json/blip3o_t2i_58859.json,false
data/coco2017_caption_canny-236k,coco2017_canny_236574.json,false
data/imgedit,json/imgedit/laion_add_part0_edit.json,true

data.txtのパスが正しく設定されているかどうかを確認するための簡単なオンライン検証ツールを用意しています。

python univa/serve/check_data.py

データの詳細

テキストから画像の生成

- [BLIP3o-60k](https://huggingface.co/datasets/BLIP3o/BLIP3o-60k): データの半分にテキストから画像の指示を追加しました。[108 GBのストレージ使用量。] - [OSP1024-286k](https://huggingface.co/datasets/LanguageBind/UniWorld-V1/tree/main/data/OSP1024-286k): [Open-Sora Plan](https://github.com/PKU-YuanGroup/Open-Sora-Plan)の内部データから取得され、[Qwen2-VL-72B](https://huggingface.co/Qwen/Qwen2-VL-72B-Instruct)を使用してキャプションが生成されています。画像のアスペクト比は3:4から4:3の間で、美学スコアが6以上、短辺が1024ピクセル以上です。[326 GBのストレージ使用量。]

画像編集

- [imgedit-724k](https://huggingface.co/datasets/sysuyy/ImgEdit/tree/main): データはGPT-4oを使用してフィルタリングされ、約半分が残されています。[2.1Tのストレージ使用量。] - [OmniEdit-368k](https://huggingface.co/datasets/TIGER-Lab/OmniEdit-Filtered-1.2M): 画像編集データについては、編集領域が1/100未満のサンプルがフィルタリングされています。画像の短辺は1024ピクセル以上です。[204 GBのストレージ使用量。] - [SEED-Data-Edit-Part1-Openimages-65k](https://huggingface.co/datasets/AILab-CVC/SEED-Data-Edit-Part1-Openimages): 画像編集データについては、編集領域が1/100未満のサンプルがフィルタリングされています。画像の短辺は1024ピクセル以上です。[10 GBのストレージ使用量。] - [SEED-Data-Edit-Part2-3-12k](https://huggingface.co/datasets/AILab-CVC/SEED-Data-Edit-Part2-3): 画像編集データについては、編集領域が1/100未満のサンプルがフィルタリングされています。画像の短辺は1024ピクセル以上です。[10 GBのストレージ使用量。] - [PromptfixData-18k](https://huggingface.co/datasets/yeates/PromptfixData): 画像修復データと一部の編集データについては、編集領域が1/100未満のサンプルがフィルタリングされています。画像の短辺は1024ピクセル以上です。[9 GBのストレージ使用量。] - [StyleBooth-11k](https://huggingface.co/scepter-studio/stylebooth): スタイル転送データについては、画像の短辺は1024ピクセル以上です。[4 GBのストレージ使用量。] - [Ghibli-36k](https://huggingface.co/datasets/LanguageBind/UniWorld-V1/tree/main/data/Ghibli-36k): スタイル転送データについては、画像の短辺は1024ピクセル以上です。**注意: このデータは品質フィルタリングされていません。** [170 GBのストレージ使用量。]

抽出と試着

- [viton_hd-23k](https://huggingface.co/datasets/forgeml/viton_hd): ソースデータから商品抽出のための指示データセットに変換されています。[1 GBのストレージ使用量。] - [deepfashion-27k](https://huggingface.co/datasets/lirus18/deepfashion): ソースデータから商品抽出のための指示データセットに変換されています。[1 GBのストレージ使用量。] - [shop_product-23k](https://huggingface.co/datasets/LanguageBind/UniWorld-V1/tree/main/data/shop_product-23k): [Open-Sora Plan](https://github.com/PKU-YuanGroup/Open-Sora-Plan)の内部データから取得され、商品抽出と仮想試着に焦点を当てています。画像の短辺は1024ピクセル以上です。[12 GBのストレージ使用量。]

画像知覚

- [coco2017_caption_canny-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_canny): img->canny & canny->img [25 GBのストレージ使用量。] - [coco2017_caption_depth-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_depth): img->depth & depth->img [8 GBのストレージ使用量。] - [coco2017_caption_hed-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_hed): img->hed & hed->img [13 GBのストレージ使用量。] - [coco2017_caption_mlsd-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_mlsd): img->mlsd & mlsd->img [ GBのストレージ使用量。] - [coco2017_caption_normal-236k](https://huggingface.co/datasets/gebinhui/coco2017_caption_normal): img->normal & normal->img [10 GBのストレージ使用量。] - [coco2017_caption_openpose-62k](https://huggingface.co/datasets/wangherr/coco2017_caption_openpose): img->pose & pose->img [2 GBのストレージ使用量。] - [coco2017_caption_sketch-236k](https://huggingface.co/datasets/wangherr/coco2017_caption_sketch): img->sketch & sketch->img [15 GBのストレージ使用量。] - [unsplash_canny-20k](https://huggingface.co/datasets/wtcherr/unsplash_10k_canny): img->canny & canny->img [2 GBのストレージ使用量。] - [open_pose-40k](https://huggingface.co/datasets/raulc0399/open_pose_controlnet): img->pose & pose->img [4 GBのストレージ使用量。] - [mscoco-controlnet-canny-less-colors-236k](https://huggingface.co/datasets/hazal-karakus/mscoco-controlnet-canny-less-colors): img->canny & canny->img [13 GBのストレージ使用量。] - [coco2017_seg_box-448k](https://huggingface.co/datasets/LanguageBind/UniWorld-V1/tree/main/data/coco2017_seg_box-448k): img->detection & img->segmentation (mask)、領域が1/100未満のインスタンスがフィルタリングされています。元の画像にマスクを可視化したgt-imageとして表示します。[39 GBのストレージ使用量。] - [viton_hd-11k](https://huggingface.co/datasets/forgeml/viton_hd): img->pose [1 GBのストレージ使用量。] - [deepfashion-13k](https://huggingface.co/datasets/lirus18/deepfashion): img->pose [1 GBのストレージ使用量。]

学習

事前学習済みの重みの準備

black-forest-labs/FLUX.1-devを$FLUX_PATHにダウンロードします。 Qwen/Qwen2.5-VL-7B-Instructを$QWENVL_PATHにダウンロードします。他のサイズのQwen2.5-VLもサポートしています。

SAVE_PATH="path/to/save/UniWorld-Qwen2.5-VL-7B-Instruct-FLUX.1-dev-fp32"
python scripts/make_univa_qwen2p5vl_weight.py \
    --origin_flux_ckpt_path $FLUX_PATH \
    --origin_qwenvl_ckpt_path $QWENVL_PATH \
    --save_path ${SAVE_PATH}

# stage1
bash scripts/denoiser/flux_qwen2p5vl_7b_vlm_stage1_512.sh

flux-redux-siglipv2-512.binをダウンロードし、stage2.yamlのpretrained_siglip_mlp_pathにそのパスを設定します。この重みはostris/Flex.1-alpha-Reduxから取得されており、私たちは重みを再編成しています。

# stage2
bash scripts/denoiser/flux_qwen2p5vl_7b_vlm_stage2_512.sh

評価

テキストから画像の生成

GenEval

``` cd univa/eval/geneval # univa/eval/geneval/README.mdの指示に従ってください ```

WISE

``` cd univa/eval/wise # univa/eval/wise/README.mdの指示に従ってください ```

GenAI-Bench

``` cd univa/eval/genai # univa/eval/genai/README.mdの指示に従ってください ```

DPG-Bench

``` cd univa/eval/dpgbench # univa/eval/dpgbench/README.mdの指示に従ってください ```

画像編集

ImgEdit

``` cd univa/eval/imgedit # univa/eval/imgedit/README.mdの指示に従ってください ```

GEdit

``` cd univa/eval/gdit # univa/eval/gdit/README.mdの指示に従ってください ```

🔧 技術詳細

UniWorldは、20以上のタスクで優れた性能を発揮します。たった270万のサンプルで学習されたUniWorldは、画像操作のためのImgEdit-BenchでBAGEL（2665万のサンプルで学習）を常に上回ります。また、ImgEdit-Benchのadd、adjust、extractなどの複数の次元で、専用の画像編集モデルStep1X-Editを上回っています。

📄 ライセンス

詳細については、LICENSEを参照してください。FLUXの重みはFLUX.1 [dev] Non-Commercial Licenseの対象となります。

🌟 Star History

🔍 引用

@misc{lin2025uniworldhighresolutionsemanticencoders,
      title={UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation}, 
      author={Bin Lin and Zongjian Li and Xinhua Cheng and Yuwei Niu and Yang Ye and Xianyi He and Shenghai Yuan and Wangbo Yu and Shaodong Wang and Yunyang Ge and Yatian Pang and Li Yuan},
      year={2025},
      eprint={2506.03147},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2506.03147}, 
}

@article{niu2025wise,
  title={Wise: A world knowledge-informed semantic evaluation for text-to-image generation},
  author={Niu, Yuwei and Ning, Munan and Zheng, Mengren and Lin, Bin and Jin, Peng and Liao, Jiaqi and Ning, Kunpeng and Zhu, Bin and Yuan, Li},
  journal={arXiv preprint arXiv:2503.07265},
  year={2025}
}

@article{lin2024open,
  title={Open-Sora Plan: Open-Source Large Video Generation Model},
  author={Lin, Bin and Ge, Yunyang and Cheng, Xinhua and Li, Zongjian and Zhu, Bin and Wang, Shaodong and He, Xianyi and Ye, Yang and Yuan, Shenghai and Chen, Liuhan and others},
  journal={arXiv preprint arXiv:2412.00131},
  year={2024}
}