Emu3-VisionTokenizerオープンソース多モーダルモデル - 生成知覚超専門モデル、機能が強力

ホーム

Emu3 VisionTokenizer

BAAIによって開発

Emu3は次トークン予測のみで訓練された新しいマルチモーダルモデルスイートで、生成と知覚タスクの両方で多くの専門モデルを凌駕します

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #マルチモーダル全能モデル #視覚トークン予測 #統一Transformerアーキテクチャ

ダウンロード数 19.82k

リリース時間 : 9/25/2024

モデル概要

画像、テキスト、動画を離散空間にエンコードし、混合マルチモーダルシーケンスで単一Transformerモデルをスクラッチから訓練することで、高品質なマルチモーダル生成と理解能力を実現

モデル特徴

統一されたマルチモーダル処理

単一Transformerモデルで画像、テキスト、動画を処理し、拡散モデルや組み合わせアーキテクチャに依存しない

生成と知覚の二重ブレークスルー

生成と知覚タスクの両方でSDXL、LLaVA-1.6、OpenSora-1.2などの専門モデルを上回る

柔軟な動画処理

因果的予測による動画シーケンストークンで動画生成を実現し、コンテキストに基づいて自然に動画コンテンツを拡張できる

モデル能力

テキストから画像生成

視覚言語理解

動画生成

動画コンテンツ予測

マルチモーダルシーケンス処理

使用事例

コンテンツ生成

クリエイティブ画像生成

テキスト記述に基づいて高品質な画像を生成

柔軟な解像度と多様なスタイルをサポート

動画継続生成

既存の動画コンテンツに基づいて後続のシーンを予測・生成

自然な動画コンテンツ拡張を実現

視覚理解

マルチモーダル質問応答

画像内容を理解し、一貫性のあるテキスト応答を生成

CLIPや事前訓練済み大規模言語モデルに依存しない

🚀 Emu3: Next-Token Prediction is All You Need

Emu3 は、次のトークン予測 のみを用いて学習された最先端のマルチモーダルモデルの新しいシリーズです！画像、テキスト、ビデオを離散空間にトークン化することで、マルチモーダルシーケンスの混合データで1つのトランスフォーマーをゼロから学習させます。

Emu3は生成と知覚の両面で卓越しています

Emu3 は、生成タスクと知覚タスクの両方で、いくつかの定評のあるタスク固有のモデルを上回り、SDXL、LLaVA - 1.6、OpenSora - 1.2などの代表的なオープンモデルを超えています。また、拡散や合成アーキテクチャを必要としません。

[Emu3チーム, BAAI](https://www.baai.ac.cn/english.html)

✨ 主な機能

Emu3 は、単に次のビジョントークンを予測することで、テキスト入力に沿った高品質な画像を生成することができます。このモデルは自然に柔軟な解像度とスタイルをサポートします。
Emu3 は、物理世界を理解する強力なビジョン言語理解能力を示し、首尾一貫したテキスト応答を提供します。特に、この能力はCLIPや事前学習されたLLMに依存することなく達成されています。
Emu3 は、Soraのようなビデオ拡散モデルとは異なり、ビデオシーケンスの次のトークンを予測することで自然にビデオを生成します。コンテキストにビデオがある場合、Emu3はビデオを自然に拡張し、次に何が起こるかを予測することもできます。

🚀 クイックスタート

オートエンコーディングのクイックスタート

import os
import os.path as osp

from PIL import Image
import torch
from transformers import AutoModel, AutoImageProcessor

MODEL_HUB = "BAAI/Emu3-VisionTokenizer"

model = AutoModel.from_pretrained(MODEL_HUB, trust_remote_code=True).eval().cuda()
processor = AutoImageProcessor.from_pretrained(MODEL_HUB, trust_remote_code=True)

# TODO: you need to modify the path here
VIDEO_FRAMES_PATH = "YOUR_VIDEO_FRAMES_PATH"

video = os.listdir(VIDEO_FRAMES_PATH)
video.sort()
video = [Image.open(osp.join(VIDEO_FRAMES_PATH, v)) for v in video]

images = processor(video, return_tensors="pt")["pixel_values"]
images = images.unsqueeze(0).cuda()

# image autoencode
image = images[:, 0]
print(image.shape)
with torch.no_grad():
    # encode
    codes = model.encode(image)
    # decode
    recon = model.decode(codes)

recon = recon.view(-1, *recon.shape[2:])
recon_image = processor.postprocess(recon)["pixel_values"][0]
recon_image.save("recon_image.png")

# video autoencode
images = images.view(
    -1,
    model.config.temporal_downsample_factor,
    *images.shape[2:],
)

print(images.shape)
with torch.no_grad():
    # encode
    codes = model.encode(images)
    # decode
    recon = model.decode(codes)

recon = recon.view(-1, *recon.shape[2:])
recon_images = processor.postprocess(recon)["pixel_values"]
for idx, im in enumerate(recon_images):
    im.save(f"recon_video_{idx}.png")