Emu3-VisionTokenizer開源多模態模型 - 生成感知超專業模型，功能強大

首頁

Emu3 VisionTokenizer

由BAAI開發

Emu3是僅通過下一詞元預測訓練的全新多模態模型套件，在生成與感知任務中均超越多個專業模型

文本生成圖像

Transformers

開源協議:Apache-2.0 #多模態全能模型 #視覺詞元預測 #統一Transformer架構

下載量 19.82k

發布時間 : 9/25/2024

模型概述

通過將圖像、文本和視頻編碼為離散空間，在混合多模態序列上從頭訓練單一Transformer模型，實現高質量的多模態生成與理解能力

模型特點

統一的多模態處理

通過單一Transformer模型處理圖像、文本和視頻，無需依賴擴散模型或組合式架構

生成與感知雙重突破

在生成與感知任務中均超越SDXL、LLaVA-1.6和OpenSora-1.2等專業模型

靈活的視頻處理

通過因果預測視頻序列詞元實現視頻生成，並能基於上下文自然延伸視頻內容

模型能力

文本到圖像生成

視覺語言理解

視頻生成

視頻內容預測

多模態序列處理

使用案例

內容生成

創意圖像生成

根據文本描述生成高質量圖像

支持靈活分辨率與多樣風格

視頻延續生成

基於已有視頻內容預測並生成後續畫面

實現自然的視頻內容延伸

視覺理解

多模態問答

理解圖像內容並生成連貫文本響應

無需依賴CLIP或預訓練大語言模型

🚀 Emu3：僅需下一令牌預測

Emu3 是一套全新的、僅通過 下一令牌預測 訓練的最先進多模態模型！通過將圖像、文本和視頻標記到離散空間，我們在多模態序列的混合數據上從頭開始訓練了一個單一的變換器模型。

項目鏈接

模型架構圖

🚀 快速開始

Emu3 在生成和感知方面均表現出色

Emu3 在生成和感知任務中均優於多個成熟的特定任務模型，超越了 SDXL、LLaVA - 1.6 和 OpenSora - 1.2 等旗艦開源模型，同時無需擴散或組合架構。

對比圖

✨ 主要特性

高質量圖像生成：Emu3 能夠通過簡單地預測下一個視覺令牌，根據文本輸入生成高質量圖像。該模型自然支持靈活的分辨率和風格。
強大的視覺 - 語言理解能力：Emu3 展現出強大的視覺 - 語言理解能力，能夠感知現實世界並提供連貫的文本響應。值得注意的是，這種能力的實現不依賴於 CLIP 和預訓練的大語言模型。
視頻生成：與 Sora 中的視頻擴散模型不同，Emu3 通過預測視頻序列中的下一個令牌來自然地生成視頻。在給定上下文視頻的情況下，Emu3 還可以自然地擴展視頻並預測接下來會發生什麼。

💻 使用示例

基礎用法

import os
import os.path as osp

from PIL import Image
import torch
from transformers import AutoModel, AutoImageProcessor

MODEL_HUB = "BAAI/Emu3-VisionTokenizer"

model = AutoModel.from_pretrained(MODEL_HUB, trust_remote_code=True).eval().cuda()
processor = AutoImageProcessor.from_pretrained(MODEL_HUB, trust_remote_code=True)

# TODO: you need to modify the path here
VIDEO_FRAMES_PATH = "YOUR_VIDEO_FRAMES_PATH"

video = os.listdir(VIDEO_FRAMES_PATH)
video.sort()
video = [Image.open(osp.join(VIDEO_FRAMES_PATH, v)) for v in video]

images = processor(video, return_tensors="pt")["pixel_values"]
images = images.unsqueeze(0).cuda()

# image autoencode
image = images[:, 0]
print(image.shape)
with torch.no_grad():
    # encode
    codes = model.encode(image)
    # decode
    recon = model.decode(codes)

recon = recon.view(-1, *recon.shape[2:])
recon_image = processor.postprocess(recon)["pixel_values"][0]
recon_image.save("recon_image.png")

# video autoencode
images = images.view(
    -1,
    model.config.temporal_downsample_factor,
    *images.shape[2:],
)

print(images.shape)
with torch.no_grad():
    # encode
    codes = model.encode(images)
    # decode
    recon = model.decode(codes)

recon = recon.view(-1, *recon.shape[2:])
recon_images = processor.postprocess(recon)["pixel_values"]
for idx, im in enumerate(recon_images):
    im.save(f"recon_video_{idx}.png")