4M-21_L開源基礎模型 - 可實現多模態‘任意到任意’生成效果

首頁

4M 21 L

由EPFL-VILAB開發

4M是一個通過標記化與掩碼技術擴展至多種模態的'任意到任意'基礎模型訓練框架

多模態融合

Safetensors

開源協議:其他 #多模態統一建模 #任意到任意轉換 #跨模態生成

下載量 49

發布時間 : 6/12/2024

模型概述

基於4M訓練的模型能執行廣泛視覺任務，可遷移至未見過的任務與模態，並具備靈活可控的多模態生成能力

模型特點

任意到任意多模態處理

支持數十種模態和任務的靈活處理能力

可擴展性

框架設計支持擴展到新的模態和任務

遷移學習能力

可遷移至未見過的任務與模態

可控多模態生成

具備靈活可控的多模態生成能力

模型能力

多模態掩碼建模

視覺任務處理

跨模態遷移學習

可控內容生成

使用案例

計算機視覺

多模態視覺理解

處理和理解多種視覺模態數據

生成式AI

可控內容生成

根據輸入條件生成多模態內容

🚀 4M：大規模多模態掩碼建模

一個用於訓練任意到任意多模態基礎模型的框架。
可擴展。開源。涵蓋數十種模態和任務。

項目網站 | GitHub倉庫 | 引用格式

以下論文的官方實現和預訓練模型：

4M：大規模多模態掩碼建模，NeurIPS 2023（亮點論文）
David Mizrahi*，Roman Bachmann*，Oğuzhan Fatih Kar，Teresa Yeo，Mingfei Gao，Afshin Dehghan，Amir Zamir

4M - 21：適用於數十種任務和模態的任意到任意視覺模型，arXiv 2024
Roman Bachmann*，Oğuzhan Fatih Kar*，David Mizrahi*，Ali Garjani，Mingfei Gao，David Griffiths，Jiaming Hu，Afshin Dehghan，Amir Zamir

4M是一個用於訓練“任意到任意”基礎模型的框架，它通過分詞和掩碼技術來擴展到多種不同的模態。使用4M訓練的模型可以執行廣泛的視覺任務，能夠很好地遷移到未見的任務和模態，並且是靈活且可引導的多模態生成模型。我們發佈了“4M：大規模多模態掩碼建模”（此處表示為4M - 7）以及“4M - 21：適用於數十種任務和模態的任意到任意視覺模型”（此處表示為4M - 21）的代碼和模型。

🚀 快速開始

✨ 主要特性

支持訓練“任意到任意”的多模態基礎模型。
可擴展到多種不同的模態和任務。
模型具有良好的遷移能力和生成能力。

📦 安裝指南

安裝說明請參考：https://github.com/apple/ml-4m 。

💻 使用示例

基礎用法

該模型可以從Hugging Face Hub加載，示例代碼如下：

from fourm.models.fm import FM
fm = FM.from_pretrained('EPFL-VILAB/4M-21_L')

更多詳細說明請參考 README_GENERATION.md，其他4M模型和分詞器的檢查點請參考：https://github.com/apple/ml-4m 。

📚 詳細文檔

目前文檔主要包含安裝和使用說明，更多詳細文檔可參考上述鏈接。

📄 許可證

本倉庫中的模型權重遵循 LICENSE 文件中的示例代碼許可證。

📄 引用

如果您覺得本倉庫有幫助，請考慮引用我們的工作：

@inproceedings{4m,
    title={{4M}: Massively Multimodal Masked Modeling},
    author={David Mizrahi and Roman Bachmann and O{\u{g}}uzhan Fatih Kar and Teresa Yeo and Mingfei Gao and Afshin Dehghan and Amir Zamir},
    booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
    year={2023},
}

@article{4m21,
    title={{4M-21}: An Any-to-Any Vision Model for Tens of Tasks and Modalities},
    author={Roman Bachmann and O{\u{g}}uzhan Fatih Kar and David Mizrahi and Ali Garjani and Mingfei Gao and David Griffiths and Jiaming Hu and Afshin Dehghan and Amir Zamir},
    journal={arXiv 2024},
    year={2024},
}