E

Emu3 Stage1

由BAAI開發
Emu3是由北京智源研究院開發的多模態模型,僅通過預測下一個標記訓練而成,支持圖像、文本和視頻處理。
下載量 1,359
發布時間 : 10/21/2024

模型概述

Emu3是一套全新的多模態模型,通過將圖像、文本和視頻標記化為離散空間,在混合多模態序列上訓練單一Transformer模型,在生成和感知任務中均表現出色。

模型特點

統一的多模態處理
通過預測下一個標記的方式統一處理圖像、文本和視頻,無需依賴擴散或組合架構。
高質量圖像生成
能夠根據文本輸入生成高質量圖像,支持靈活的分辨率和風格。
強大的視覺語言理解
無需依賴CLIP或預訓練的大型語言模型即可實現強大的視覺語言理解能力。
視頻生成與擴展
通過預測視頻序列中的下一個標記來生成視頻,並能自然地擴展已有視頻內容。

模型能力

文本到圖像生成
圖像描述
視覺問答
視頻生成
視頻擴展

使用案例

創意內容生成
藝術創作
根據文本描述生成高質量的藝術圖像
生成具有膠片顆粒感和最佳質量的圖像
肖像生成
生成特定風格的肖像畫
生成年輕女孩的肖像畫
視覺理解
圖像分析
分析圖像內容並提供文本描述
準確描述圖像中的場景和對象
視頻處理
視頻生成
根據文本提示生成視頻內容
生成連貫的視頻序列
視頻擴展
預測並擴展已有視頻內容
自然地延續視頻場景
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase