🚀 4M:大规模多模态掩码建模
一个用于训练任意到任意多模态基础模型的框架。
可扩展。开源。涵盖数十种模态和任务。
项目网站
| GitHub仓库
| BibTeX引用
以下论文的官方实现和预训练模型:
4M: Massively Multimodal Masked Modeling,NeurIPS 2023(亮点展示)
David Mizrahi*,Roman Bachmann*,Oğuzhan Fatih Kar,Teresa Yeo,Mingfei Gao,Afshin Dehghan,Amir Zamir
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities,arXiv 2024
Roman Bachmann*,Oğuzhan Fatih Kar*,David Mizrahi*,Ali Garjani,Mingfei Gao,David Griffiths,Jiaming Hu,Afshin Dehghan,Amir Zamir
4M是一个用于训练“任意到任意”基础模型的框架,它使用标记化和掩码技术来扩展到多种不同的模态。使用4M训练的模型可以执行广泛的视觉任务,能够很好地迁移到未见的任务和模态,并且是灵活且可引导的多模态生成模型。我们正在发布“4M: Massively Multimodal Masked Modeling”(此处表示为4M - 7)以及“4M - 21: An Any-to-Any Vision Model for Tens of Tasks and Modalities”(此处表示为4M - 21)的代码和模型。
🚀 快速开始
4M是一个强大的框架,可用于训练多模态基础模型,支持多种模态和任务。下面将为你介绍安装和使用的基本步骤。
✨ 主要特性
- 任意到任意建模:能够训练处理任意输入到任意输出的多模态基础模型。
- 可扩展性:通过标记化和掩码技术,可扩展到数十种不同的模态。
- 广泛的任务支持:训练出的模型可以执行各种视觉任务,并能很好地迁移到未见的任务和模态。
- 开源:提供官方实现和预训练模型,方便开发者使用和扩展。
📦 安装指南
有关安装说明,请参阅 https://github.com/apple/ml-4m。
💻 使用示例
基础用法
可以从Hugging Face Hub加载此模型,示例代码如下:
from fourm.models.fm import FM
fm = FM.from_pretrained('EPFL-VILAB/4M-7_B_CC12M')
更多详细说明请参阅 https://github.com/apple/ml-4m/blob/main/README_GENERATION.md,其他4M模型和分词器检查点请访问 https://github.com/apple/ml-4m。
📚 详细文档
请参考项目的GitHub仓库 https://github.com/apple/ml-4m 以获取更多详细信息。
📄 引用
如果您觉得这个仓库有帮助,请考虑引用我们的工作:
@inproceedings{4m,
title={{4M}: Massively Multimodal Masked Modeling},
author={David Mizrahi and Roman Bachmann and O{\u{g}}uzhan Fatih Kar and Teresa Yeo and Mingfei Gao and Afshin Dehghan and Amir Zamir},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
}
@article{4m21,
title={{4M-21}: An Any-to-Any Vision Model for Tens of Tasks and Modalities},
author={Roman Bachmann and O{\u{g}}uzhan Fatih Kar and David Mizrahi and Ali Garjani and Mingfei Gao and David Griffiths and Jiaming Hu and Afshin Dehghan and Amir Zamir},
journal={arXiv 2024},
year={2024},
}
📄 许可证
此仓库中的模型权重根据 LICENSE 文件中的示例代码许可证发布。