Emu3 VisionTokenizer
Emu3は次トークン予測のみで訓練された新しいマルチモーダルモデルスイートで、生成と知覚タスクの両方で多くの専門モデルを凌駕します
ダウンロード数 19.82k
リリース時間 : 9/25/2024
モデル概要
画像、テキスト、動画を離散空間にエンコードし、混合マルチモーダルシーケンスで単一Transformerモデルをスクラッチから訓練することで、高品質なマルチモーダル生成と理解能力を実現
モデル特徴
統一されたマルチモーダル処理
単一Transformerモデルで画像、テキスト、動画を処理し、拡散モデルや組み合わせアーキテクチャに依存しない
生成と知覚の二重ブレークスルー
生成と知覚タスクの両方でSDXL、LLaVA-1.6、OpenSora-1.2などの専門モデルを上回る
柔軟な動画処理
因果的予測による動画シーケンストークンで動画生成を実現し、コンテキストに基づいて自然に動画コンテンツを拡張できる
モデル能力
テキストから画像生成
視覚言語理解
動画生成
動画コンテンツ予測
マルチモーダルシーケンス処理
使用事例
コンテンツ生成
クリエイティブ画像生成
テキスト記述に基づいて高品質な画像を生成
柔軟な解像度と多様なスタイルをサポート
動画継続生成
既存の動画コンテンツに基づいて後続のシーンを予測・生成
自然な動画コンテンツ拡張を実現
視覚理解
マルチモーダル質問応答
画像内容を理解し、一貫性のあるテキスト応答を生成
CLIPや事前訓練済み大規模言語モデルに依存しない
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98