4M-21_L开源基础模型 - 可实现多模态‘任意到任意’生成效果

首页

4M 21 L

由 EPFL-VILAB 开发

4M是一个通过标记化与掩码技术扩展至多种模态的'任意到任意'基础模型训练框架

多模态融合

Safetensors

开源协议:其他 #多模态统一建模 #任意到任意转换 #跨模态生成

下载量 49

发布时间 : 6/12/2024

模型简介

基于4M训练的模型能执行广泛视觉任务，可迁移至未见过的任务与模态，并具备灵活可控的多模态生成能力

模型特点

任意到任意多模态处理

支持数十种模态和任务的灵活处理能力

可扩展性

框架设计支持扩展到新的模态和任务

迁移学习能力

可迁移至未见过的任务与模态

可控多模态生成

具备灵活可控的多模态生成能力

模型能力

多模态掩码建模

视觉任务处理

跨模态迁移学习

可控内容生成

使用案例

计算机视觉

多模态视觉理解

处理和理解多种视觉模态数据

生成式AI

可控内容生成

根据输入条件生成多模态内容

🚀 4M：大规模多模态掩码建模

一个用于训练任意到任意多模态基础模型的框架。
可扩展。开源。涵盖数十种模态和任务。

项目网站 | GitHub仓库 | 引用格式

以下论文的官方实现和预训练模型：

4M：大规模多模态掩码建模，NeurIPS 2023（亮点论文）
David Mizrahi*，Roman Bachmann*，Oğuzhan Fatih Kar，Teresa Yeo，Mingfei Gao，Afshin Dehghan，Amir Zamir

4M - 21：适用于数十种任务和模态的任意到任意视觉模型，arXiv 2024
Roman Bachmann*，Oğuzhan Fatih Kar*，David Mizrahi*，Ali Garjani，Mingfei Gao，David Griffiths，Jiaming Hu，Afshin Dehghan，Amir Zamir

4M是一个用于训练“任意到任意”基础模型的框架，它通过分词和掩码技术来扩展到多种不同的模态。使用4M训练的模型可以执行广泛的视觉任务，能够很好地迁移到未见的任务和模态，并且是灵活且可引导的多模态生成模型。我们发布了“4M：大规模多模态掩码建模”（此处表示为4M - 7）以及“4M - 21：适用于数十种任务和模态的任意到任意视觉模型”（此处表示为4M - 21）的代码和模型。

🚀 快速开始

✨ 主要特性

支持训练“任意到任意”的多模态基础模型。
可扩展到多种不同的模态和任务。
模型具有良好的迁移能力和生成能力。

📦 安装指南

安装说明请参考：https://github.com/apple/ml-4m 。

💻 使用示例

基础用法

该模型可以从Hugging Face Hub加载，示例代码如下：

from fourm.models.fm import FM
fm = FM.from_pretrained('EPFL-VILAB/4M-21_L')

更多详细说明请参考 README_GENERATION.md，其他4M模型和分词器的检查点请参考：https://github.com/apple/ml-4m 。

📚 详细文档

目前文档主要包含安装和使用说明，更多详细文档可参考上述链接。

📄 许可证

本仓库中的模型权重遵循 LICENSE 文件中的示例代码许可证。

📄 引用

如果您觉得本仓库有帮助，请考虑引用我们的工作：

@inproceedings{4m,
    title={{4M}: Massively Multimodal Masked Modeling},
    author={David Mizrahi and Roman Bachmann and O{\u{g}}uzhan Fatih Kar and Teresa Yeo and Mingfei Gao and Afshin Dehghan and Amir Zamir},
    booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
    year={2023},
}

@article{4m21,
    title={{4M-21}: An Any-to-Any Vision Model for Tens of Tasks and Modalities},
    author={Roman Bachmann and O{\u{g}}uzhan Fatih Kar and David Mizrahi and Ali Garjani and Mingfei Gao and David Griffiths and Jiaming Hu and Afshin Dehghan and Amir Zamir},
    journal={arXiv 2024},
    year={2024},
}