Emu3-Stage1开源多模态模型 - 免费使用，支持图像、文本和视频处理

首页

Emu3 Stage1

由 BAAI 开发

Emu3是由北京智源研究院开发的多模态模型，仅通过预测下一个标记训练而成，支持图像、文本和视频处理。

文本生成图像

Transformers

开源协议:Apache-2.0 #多模态生成 #视觉语言理解 #高质量图像生成

下载量 1,359

发布时间 : 10/21/2024

模型简介

Emu3是一套全新的多模态模型，通过将图像、文本和视频标记化为离散空间，在混合多模态序列上训练单一Transformer模型，在生成和感知任务中均表现出色。

模型特点

统一的多模态处理

通过预测下一个标记的方式统一处理图像、文本和视频，无需依赖扩散或组合架构。

高质量图像生成

能够根据文本输入生成高质量图像，支持灵活的分辨率和风格。

强大的视觉语言理解

无需依赖CLIP或预训练的大型语言模型即可实现强大的视觉语言理解能力。

视频生成与扩展

通过预测视频序列中的下一个标记来生成视频，并能自然地扩展已有视频内容。

模型能力

文本到图像生成

图像描述

视觉问答

视频生成

视频扩展

使用案例

创意内容生成

艺术创作

根据文本描述生成高质量的艺术图像

生成具有胶片颗粒感和最佳质量的图像

肖像生成

生成特定风格的肖像画

生成年轻女孩的肖像画

视觉理解

图像分析

分析图像内容并提供文本描述

准确描述图像中的场景和对象

视频处理

视频生成

根据文本提示生成视频内容

生成连贯的视频序列

视频扩展

预测并扩展已有视频内容

自然地延续视频场景

🚀 Emu3：仅需下一令牌预测

我们推出了 Emu3，这是一套全新的、仅通过 下一令牌预测 进行训练的最先进多模态模型！通过将图像、文本和视频标记化到离散空间，我们在多模态序列的混合数据上从头开始训练单个Transformer模型。

Emu3在生成和感知方面均表现出色

Emu3 在生成和感知任务中均优于多个成熟的特定任务模型，超越了如SDXL、LLaVA - 1.6和OpenSora - 1.2等旗舰开源模型，同时无需扩散或组合架构。

🚀 快速开始

模型信息

Emu3 - Stage1 模型是Emu3预训练过程第一阶段的预训练权重。Emu3的预训练过程分两个阶段进行。在第一阶段，不使用视频数据，从文本和图像数据开始，以5120的上下文长度从头开始训练。该模型支持图像描述，并能生成分辨率为512x512的图像。你可以使用我们的训练脚本进行进一步的指令调优，以用于更多图像生成和感知任务。

代码示例

from PIL import Image
from transformers import AutoTokenizer, AutoModel, AutoImageProcessor, AutoModelForCausalLM
from transformers.generation.configuration_utils import GenerationConfig
from transformers.generation import LogitsProcessorList, PrefixConstrainedLogitsProcessor, UnbatchedClassifierFreeGuidanceLogitsProcessor
import torch

import sys
sys.path.append(PATH_TO_BAAI_Emu3-Stage1_MODEL)
from processing_emu3 import Emu3Processor

# model path
EMU_HUB = "BAAI/Emu3-Stage1"
VQ_HUB = "BAAI/Emu3-VisionTokenizer"

# prepare model and processor
model = AutoModelForCausalLM.from_pretrained(
    EMU_HUB,
    device_map="cuda:0",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    trust_remote_code=True,
)

tokenizer = AutoTokenizer.from_pretrained(EMU_HUB, trust_remote_code=True, padding_side="left")
image_processor = AutoImageProcessor.from_pretrained(VQ_HUB, trust_remote_code=True)
image_tokenizer = AutoModel.from_pretrained(VQ_HUB, device_map="cuda:0", trust_remote_code=True).eval()
processor = Emu3Processor(image_processor, image_tokenizer, tokenizer, chat_template="{image_prompt}{text_prompt}")

# Image Generation
# prepare input
POSITIVE_PROMPT = " masterpiece, film grained, best quality."
NEGATIVE_PROMPT = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry."

classifier_free_guidance = 3.0
prompt = "a portrait of young girl."
prompt += POSITIVE_PROMPT

kwargs = dict(
    mode='G',
    ratio="1:1",
    image_area=model.config.image_area,
    return_tensors="pt",
    padding="longest",
)
pos_inputs = processor(text=prompt, **kwargs)
neg_inputs = processor(text=NEGATIVE_PROMPT, **kwargs)

# prepare hyper parameters
GENERATION_CONFIG = GenerationConfig(
    use_cache=True,
    eos_token_id=model.config.eos_token_id,
    pad_token_id=model.config.pad_token_id,
    max_new_tokens=40960,
    do_sample=True,
    top_k=2048,
)

h = pos_inputs.image_size[:, 0]
w = pos_inputs.image_size[:, 1]
constrained_fn = processor.build_prefix_constrained_fn(h, w)
logits_processor = LogitsProcessorList([
    UnbatchedClassifierFreeGuidanceLogitsProcessor(
        classifier_free_guidance,
        model,
        unconditional_ids=neg_inputs.input_ids.to("cuda:0"),
    ),
    PrefixConstrainedLogitsProcessor(
        constrained_fn ,
        num_beams=1,
    ),
])

# generate
outputs = model.generate(
    pos_inputs.input_ids.to("cuda:0"),
    GENERATION_CONFIG,
    logits_processor=logits_processor,
    attention_mask=pos_inputs.attention_mask.to("cuda:0"),
)

mm_list = processor.decode(outputs[0])
for idx, im in enumerate(mm_list):
    if not isinstance(im, Image.Image):
        continue
    im.save(f"result_{idx}.png")


# Multimodal Understanding
text = "The image depicts "
image = Image.open("assets/demo.png")

inputs = processor(
    text=text,
    image=image,
    mode='U',
    padding="longest",
    return_tensors="pt",
)
GENERATION_CONFIG = GenerationConfig(
    pad_token_id=tokenizer.pad_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=1024,
)

 outputs = model.generate(
     inputs.input_ids.to("cuda:0"),
     GENERATION_CONFIG,
     attention_mask=inputs.attention_mask.to("cuda:0"),
 )
 outputs = outputs[:, inputs.input_ids.shape[-1]:]
 answers = processor.batch_decode(outputs, skip_special_tokens=True)
 for ans in answers:
     print(ans)

✨ 主要特性

Emu3 能够通过简单地预测下一个视觉令牌，根据文本输入生成高质量图像。该模型自然支持灵活的分辨率和风格。
Emu3 展现出强大的视觉 - 语言理解能力，能够感知现实世界并提供连贯的文本响应。值得注意的是，这种能力的实现不依赖于CLIP和预训练的大语言模型。
Emu3 只需通过预测视频序列中的下一个令牌，就能自然地生成视频，这与Sora中的视频扩散模型不同。在有视频上下文的情况下，Emu3还能自然地扩展视频并预测接下来会发生的事情。