開源4M-7_B_CC12M模型 - 實現任意到任意多模態轉換，功能強大易使用！

首頁

4M 7 B CC12M

由EPFL-VILAB開發

4M是一個訓練'任意到任意'多模態基礎模型的框架，通過標記化和掩碼技術擴展到多種不同模態。

多模態融合

Safetensors

開源協議:其他 #多模態轉換 #任意模態生成 #掩碼預訓練

下載量 209

發布時間 : 3/25/2024

模型概述

4M框架訓練的模型能夠執行廣泛的視覺任務，良好遷移到未見過的任務和模態，並且是靈活可控的多模態生成模型。

模型特點

任意到任意模態轉換

支持多種不同模態之間的相互轉換

大規模多模態支持

可擴展到數十種不同的模態和任務

良好的遷移能力

能夠良好遷移到未見過的任務和模態

靈活可控的生成

作為多模態生成模型具有高度靈活性和可控性

模型能力

多模態數據轉換

視覺任務處理

多模態生成

跨模態遷移學習

使用案例

計算機視覺

圖像生成

從其他模態數據生成圖像

視覺問答

結合視覺和語言模態回答問題

多模態應用

跨模態檢索

在不同模態數據之間進行檢索

🚀 4M：大規模多模態掩碼建模

一個用於訓練任意到任意多模態基礎模型的框架。
可擴展。開源。涵蓋數十種模態和任務。

項目網站 | GitHub倉庫 | BibTeX引用

以下論文的官方實現和預訓練模型：

4M: Massively Multimodal Masked Modeling，NeurIPS 2023（亮點展示）
David Mizrahi*，Roman Bachmann*，Oğuzhan Fatih Kar，Teresa Yeo，Mingfei Gao，Afshin Dehghan，Amir Zamir

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities，arXiv 2024
Roman Bachmann*，Oğuzhan Fatih Kar*，David Mizrahi*，Ali Garjani，Mingfei Gao，David Griffiths，Jiaming Hu，Afshin Dehghan，Amir Zamir

4M是一個用於訓練“任意到任意”基礎模型的框架，它使用標記化和掩碼技術來擴展到多種不同的模態。使用4M訓練的模型可以執行廣泛的視覺任務，能夠很好地遷移到未見的任務和模態，並且是靈活且可引導的多模態生成模型。我們正在發佈“4M: Massively Multimodal Masked Modeling”（此處表示為4M - 7）以及“4M - 21: An Any-to-Any Vision Model for Tens of Tasks and Modalities”（此處表示為4M - 21）的代碼和模型。

🚀 快速開始

4M是一個強大的框架，可用於訓練多模態基礎模型，支持多種模態和任務。下面將為你介紹安裝和使用的基本步驟。

✨ 主要特性

任意到任意建模：能夠訓練處理任意輸入到任意輸出的多模態基礎模型。
可擴展性：通過標記化和掩碼技術，可擴展到數十種不同的模態。
廣泛的任務支持：訓練出的模型可以執行各種視覺任務，並能很好地遷移到未見的任務和模態。
開源：提供官方實現和預訓練模型，方便開發者使用和擴展。

📦 安裝指南

有關安裝說明，請參閱 https://github.com/apple/ml-4m。

💻 使用示例

基礎用法

可以從Hugging Face Hub加載此模型，示例代碼如下：

from fourm.models.fm import FM
fm = FM.from_pretrained('EPFL-VILAB/4M-7_B_CC12M')

更多詳細說明請參閱 https://github.com/apple/ml-4m/blob/main/README_GENERATION.md，其他4M模型和分詞器檢查點請訪問 https://github.com/apple/ml-4m。

📚 詳細文檔

請參考項目的GitHub倉庫 https://github.com/apple/ml-4m 以獲取更多詳細信息。

📄 引用

如果您覺得這個倉庫有幫助，請考慮引用我們的工作：

@inproceedings{4m,
    title={{4M}: Massively Multimodal Masked Modeling},
    author={David Mizrahi and Roman Bachmann and O{\u{g}}uzhan Fatih Kar and Teresa Yeo and Mingfei Gao and Afshin Dehghan and Amir Zamir},
    booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
    year={2023},
}

@article{4m21,
    title={{4M-21}: An Any-to-Any Vision Model for Tens of Tasks and Modalities},
    author={Roman Bachmann and O{\u{g}}uzhan Fatih Kar and David Mizrahi and Ali Garjani and Mingfei Gao and David Griffiths and Jiaming Hu and Afshin Dehghan and Amir Zamir},
    journal={arXiv 2024},
    year={2024},
}