4

4M 7 SR L CC12M

EPFL-VILABによって開発
4Mは拡張可能なマルチモーダルマスクモデリングフレームワークで、任意から任意へのモーダル変換をサポートし、数十のモーダルとタスクをカバーします。
ダウンロード数 26
リリース時間 : 3/25/2024

モデル概要

4Mはトークン化とマスキング技術を複数のモーダルに拡張した'任意から任意へ'の基盤モデルトレーニングフレームワークです。4Mでトレーニングされたモデルは幅広い視覚タスクを実行でき、未見のタスクやモーダルに転移可能で、柔軟かつ制御可能なマルチモーダル生成能力を持ちます。

モデル特徴

任意から任意へのモーダル変換
視覚、言語など数十のモーダル間の柔軟な変換をサポート
拡張性
新しいモーダルやタスクへの容易な拡張を可能にするフレームワーク設計
転移学習能力
未見のタスクやモーダルへの転移が可能
制御可能な生成
柔軟かつ制御可能なマルチモーダルコンテンツ生成をサポート

モデル能力

マルチモーダル変換
視覚タスク処理
制御可能なコンテンツ生成
クロスモーダル転移学習

使用事例

コンピュータビジョン
画像生成と編集
異なるモーダル入力に基づく画像の生成や編集
クロスモーダルアプリケーション
テキストから画像生成
テキスト記述に基づく対応画像の生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase