E

Emu3 VisionTokenizer

BAAIによって開発
Emu3は次トークン予測のみで訓練された新しいマルチモーダルモデルスイートで、生成と知覚タスクの両方で多くの専門モデルを凌駕します
ダウンロード数 19.82k
リリース時間 : 9/25/2024

モデル概要

画像、テキスト、動画を離散空間にエンコードし、混合マルチモーダルシーケンスで単一Transformerモデルをスクラッチから訓練することで、高品質なマルチモーダル生成と理解能力を実現

モデル特徴

統一されたマルチモーダル処理
単一Transformerモデルで画像、テキスト、動画を処理し、拡散モデルや組み合わせアーキテクチャに依存しない
生成と知覚の二重ブレークスルー
生成と知覚タスクの両方でSDXL、LLaVA-1.6、OpenSora-1.2などの専門モデルを上回る
柔軟な動画処理
因果的予測による動画シーケンストークンで動画生成を実現し、コンテキストに基づいて自然に動画コンテンツを拡張できる

モデル能力

テキストから画像生成
視覚言語理解
動画生成
動画コンテンツ予測
マルチモーダルシーケンス処理

使用事例

コンテンツ生成
クリエイティブ画像生成
テキスト記述に基づいて高品質な画像を生成
柔軟な解像度と多様なスタイルをサポート
動画継続生成
既存の動画コンテンツに基づいて後続のシーンを予測・生成
自然な動画コンテンツ拡張を実現
視覚理解
マルチモーダル質問応答
画像内容を理解し、一貫性のあるテキスト応答を生成
CLIPや事前訓練済み大規模言語モデルに依存しない
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase