🚀 4M: 大規模マルチモーダルマスクモデリング
任意のモーダリティ間で動作するマルチモーダル基礎モデルのトレーニングフレームワークです。
拡張性があり、オープンソースで、数十のモーダリティとタスクに対応します。
ウェブサイト
| GitHub
| BibTeX
以下の論文の公式実装と事前学習済みモデルです:
4M: Massively Multimodal Masked Modeling、NeurIPS 2023 (Spotlight)
David Mizrahi*、Roman Bachmann*、Oğuzhan Fatih Kar、Teresa Yeo、Mingfei Gao、Afshin Dehghan、Amir Zamir
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities、arXiv 2024
Roman Bachmann*、Oğuzhan Fatih Kar*、David Mizrahi*、Ali Garjani、Mingfei Gao、David Griffiths、Jiaming Hu、Afshin Dehghan、Amir Zamir
4Mは、トークン化とマスキングを用いて多様なモーダリティに拡張可能な「任意のモーダリティ間」の基礎モデルをトレーニングするためのフレームワークです。
4Mを用いてトレーニングされたモデルは、幅広いビジョンタスクを実行でき、未見のタスクやモーダリティへの転移性が高く、柔軟で制御可能なマルチモーダル生成モデルです。
ここでは、「4M: Massively Multimodal Masked Modeling」(ここでは4M-7と表記)と「4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities」(ここでは4M-21と表記)のコードとモデルを公開しています。
🚀 クイックスタート
4Mは、トークン化とマスキングを使用して、多様なモダリティにスケールする「任意のモーダリティ間」の基礎モデルをトレーニングするためのフレームワークです。
✨ 主な機能
- 「任意のモーダリティ間」の基礎モデルのトレーニングが可能です。
- トークン化とマスキングを用いて、多様なモダリティに拡張可能です。
- トレーニングされたモデルは、幅広いビジョンタスクを実行でき、未見のタスクやモーダリティへの転移性が高く、柔軟で制御可能なマルチモーダル生成モデルです。
📦 インストール
インストール手順については、https://github.com/apple/ml-4m を参照してください。
💻 使用例
基本的な使用法
このモデルは、Hugging Face Hubから以下のように読み込むことができます:
from fourm.models.fm import FM
fm = FM.from_pretrained('EPFL-VILAB/4M-7-SR_L_CC12M')
より詳細な手順については、https://github.com/apple/ml-4m/blob/main/README_GENERATION.md を参照してください。他の4Mモデルとトークナイザーのチェックポイントについては、https://github.com/apple/ml-4m を参照してください。
📚 ドキュメント
4Mは、トークン化とマスキングを用いて多様なモダリティに拡張可能な「任意のモーダリティ間」の基礎モデルをトレーニングするためのフレームワークです。
モデルは、幅広いビジョンタスクを実行でき、未見のタスクやモーダリティへの転移性が高く、柔軟で制御可能なマルチモーダル生成モデルです。
📄 ライセンス
このリポジトリ内のモデルの重みは、LICENSE ファイルに記載されているサンプルコードライセンスの下で公開されています。
📄 Citation
もしこのリポジトリが役に立った場合は、以下のように引用を検討してください:
@inproceedings{4m,
title={{4M}: Massively Multimodal Masked Modeling},
author={David Mizrahi and Roman Bachmann and O{\u{g}}uzhan Fatih Kar and Teresa Yeo and Mingfei Gao and Afshin Dehghan and Amir Zamir},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
}
@article{4m21,
title={{4M-21}: An Any-to-Any Vision Model for Tens of Tasks and Modalities},
author={Roman Bachmann and O{\u{g}}uzhan Fatih Kar and David Mizrahi and Ali Garjani and Mingfei Gao and David Griffiths and Jiaming Hu and Afshin Dehghan and Amir Zamir},
journal={arXiv 2024},
year={2024},
}