E

Emu3 VisionTokenizer

由BAAI開發
Emu3是僅通過下一詞元預測訓練的全新多模態模型套件,在生成與感知任務中均超越多個專業模型
下載量 19.82k
發布時間 : 9/25/2024

模型概述

通過將圖像、文本和視頻編碼為離散空間,在混合多模態序列上從頭訓練單一Transformer模型,實現高質量的多模態生成與理解能力

模型特點

統一的多模態處理
通過單一Transformer模型處理圖像、文本和視頻,無需依賴擴散模型或組合式架構
生成與感知雙重突破
在生成與感知任務中均超越SDXL、LLaVA-1.6和OpenSora-1.2等專業模型
靈活的視頻處理
通過因果預測視頻序列詞元實現視頻生成,並能基於上下文自然延伸視頻內容

模型能力

文本到圖像生成
視覺語言理解
視頻生成
視頻內容預測
多模態序列處理

使用案例

內容生成
創意圖像生成
根據文本描述生成高質量圖像
支持靈活分辨率與多樣風格
視頻延續生成
基於已有視頻內容預測並生成後續畫面
實現自然的視頻內容延伸
視覺理解
多模態問答
理解圖像內容並生成連貫文本響應
無需依賴CLIP或預訓練大語言模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase