开源4M-7_B_CC12M模型 - 实现任意到任意多模态转换，功能强大易使用！

首页

4M 7 B CC12M

由 EPFL-VILAB 开发

4M是一个训练'任意到任意'多模态基础模型的框架，通过标记化和掩码技术扩展到多种不同模态。

多模态融合

Safetensors

开源协议:其他 #多模态转换 #任意模态生成 #掩码预训练

下载量 209

发布时间 : 3/25/2024

模型简介

4M框架训练的模型能够执行广泛的视觉任务，良好迁移到未见过的任务和模态，并且是灵活可控的多模态生成模型。

模型特点

任意到任意模态转换

支持多种不同模态之间的相互转换

大规模多模态支持

可扩展到数十种不同的模态和任务

良好的迁移能力

能够良好迁移到未见过的任务和模态

灵活可控的生成

作为多模态生成模型具有高度灵活性和可控性

模型能力

多模态数据转换

视觉任务处理

多模态生成

跨模态迁移学习

使用案例

计算机视觉

图像生成

从其他模态数据生成图像

视觉问答

结合视觉和语言模态回答问题

多模态应用

跨模态检索

在不同模态数据之间进行检索

🚀 4M：大规模多模态掩码建模

一个用于训练任意到任意多模态基础模型的框架。
可扩展。开源。涵盖数十种模态和任务。

项目网站 | GitHub仓库 | BibTeX引用

以下论文的官方实现和预训练模型：

4M: Massively Multimodal Masked Modeling，NeurIPS 2023（亮点展示）
David Mizrahi*，Roman Bachmann*，Oğuzhan Fatih Kar，Teresa Yeo，Mingfei Gao，Afshin Dehghan，Amir Zamir

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities，arXiv 2024
Roman Bachmann*，Oğuzhan Fatih Kar*，David Mizrahi*，Ali Garjani，Mingfei Gao，David Griffiths，Jiaming Hu，Afshin Dehghan，Amir Zamir

4M是一个用于训练“任意到任意”基础模型的框架，它使用标记化和掩码技术来扩展到多种不同的模态。使用4M训练的模型可以执行广泛的视觉任务，能够很好地迁移到未见的任务和模态，并且是灵活且可引导的多模态生成模型。我们正在发布“4M: Massively Multimodal Masked Modeling”（此处表示为4M - 7）以及“4M - 21: An Any-to-Any Vision Model for Tens of Tasks and Modalities”（此处表示为4M - 21）的代码和模型。

🚀 快速开始

4M是一个强大的框架，可用于训练多模态基础模型，支持多种模态和任务。下面将为你介绍安装和使用的基本步骤。

✨ 主要特性

任意到任意建模：能够训练处理任意输入到任意输出的多模态基础模型。
可扩展性：通过标记化和掩码技术，可扩展到数十种不同的模态。
广泛的任务支持：训练出的模型可以执行各种视觉任务，并能很好地迁移到未见的任务和模态。
开源：提供官方实现和预训练模型，方便开发者使用和扩展。

📦 安装指南

有关安装说明，请参阅 https://github.com/apple/ml-4m。

💻 使用示例

基础用法

可以从Hugging Face Hub加载此模型，示例代码如下：

from fourm.models.fm import FM
fm = FM.from_pretrained('EPFL-VILAB/4M-7_B_CC12M')

更多详细说明请参阅 https://github.com/apple/ml-4m/blob/main/README_GENERATION.md，其他4M模型和分词器检查点请访问 https://github.com/apple/ml-4m。

📚 详细文档

请参考项目的GitHub仓库 https://github.com/apple/ml-4m 以获取更多详细信息。

📄 引用

如果您觉得这个仓库有帮助，请考虑引用我们的工作：

@inproceedings{4m,
    title={{4M}: Massively Multimodal Masked Modeling},
    author={David Mizrahi and Roman Bachmann and O{\u{g}}uzhan Fatih Kar and Teresa Yeo and Mingfei Gao and Afshin Dehghan and Amir Zamir},
    booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
    year={2023},
}

@article{4m21,
    title={{4M-21}: An Any-to-Any Vision Model for Tens of Tasks and Modalities},
    author={Roman Bachmann and O{\u{g}}uzhan Fatih Kar and David Mizrahi and Ali Garjani and Mingfei Gao and David Griffiths and Jiaming Hu and Afshin Dehghan and Amir Zamir},
    journal={arXiv 2024},
    year={2024},
}