🚀 4M:大規模多模態掩碼建模
一個用於訓練任意到任意多模態基礎模型的框架。
可擴展。開源。涵蓋數十種模態和任務。
項目網站
| GitHub倉庫
| BibTeX引用
以下論文的官方實現和預訓練模型:
4M: Massively Multimodal Masked Modeling,NeurIPS 2023(亮點展示)
David Mizrahi*,Roman Bachmann*,Oğuzhan Fatih Kar,Teresa Yeo,Mingfei Gao,Afshin Dehghan,Amir Zamir
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities,arXiv 2024
Roman Bachmann*,Oğuzhan Fatih Kar*,David Mizrahi*,Ali Garjani,Mingfei Gao,David Griffiths,Jiaming Hu,Afshin Dehghan,Amir Zamir
4M是一個用於訓練“任意到任意”基礎模型的框架,它使用標記化和掩碼技術來擴展到多種不同的模態。使用4M訓練的模型可以執行廣泛的視覺任務,能夠很好地遷移到未見的任務和模態,並且是靈活且可引導的多模態生成模型。我們正在發佈“4M: Massively Multimodal Masked Modeling”(此處表示為4M - 7)以及“4M - 21: An Any-to-Any Vision Model for Tens of Tasks and Modalities”(此處表示為4M - 21)的代碼和模型。
🚀 快速開始
4M是一個強大的框架,可用於訓練多模態基礎模型,支持多種模態和任務。下面將為你介紹安裝和使用的基本步驟。
✨ 主要特性
- 任意到任意建模:能夠訓練處理任意輸入到任意輸出的多模態基礎模型。
- 可擴展性:通過標記化和掩碼技術,可擴展到數十種不同的模態。
- 廣泛的任務支持:訓練出的模型可以執行各種視覺任務,並能很好地遷移到未見的任務和模態。
- 開源:提供官方實現和預訓練模型,方便開發者使用和擴展。
📦 安裝指南
有關安裝說明,請參閱 https://github.com/apple/ml-4m。
💻 使用示例
基礎用法
可以從Hugging Face Hub加載此模型,示例代碼如下:
from fourm.models.fm import FM
fm = FM.from_pretrained('EPFL-VILAB/4M-7_B_CC12M')
更多詳細說明請參閱 https://github.com/apple/ml-4m/blob/main/README_GENERATION.md,其他4M模型和分詞器檢查點請訪問 https://github.com/apple/ml-4m。
📚 詳細文檔
請參考項目的GitHub倉庫 https://github.com/apple/ml-4m 以獲取更多詳細信息。
📄 引用
如果您覺得這個倉庫有幫助,請考慮引用我們的工作:
@inproceedings{4m,
title={{4M}: Massively Multimodal Masked Modeling},
author={David Mizrahi and Roman Bachmann and O{\u{g}}uzhan Fatih Kar and Teresa Yeo and Mingfei Gao and Afshin Dehghan and Amir Zamir},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
}
@article{4m21,
title={{4M-21}: An Any-to-Any Vision Model for Tens of Tasks and Modalities},
author={Roman Bachmann and O{\u{g}}uzhan Fatih Kar and David Mizrahi and Ali Garjani and Mingfei Gao and David Griffiths and Jiaming Hu and Afshin Dehghan and Amir Zamir},
journal={arXiv 2024},
year={2024},
}
📄 許可證
此倉庫中的模型權重根據 LICENSE 文件中的示例代碼許可證發佈。