Cerule-v0.1開源視覺語言模型 - 輕量強大，專注圖像文本處理

首頁

Cerule V0.1

由Tensoic開發

Cerule 是一款輕量卻強大的視覺語言模型，基於谷歌的 Gemma-2b 和 SigLIP 構建，專注於圖像文本處理。

圖像生成文本

Transformers

英語#輕量視覺語言模型 #多模態圖像理解 #高效微調訓練

下載量 157

發布時間 : 4/2/2024

模型概述

Cerule 是一個小巧但功能強大的視覺語言模型，結合了谷歌的 Gemma-2b 和 SigLIP，為圖像文本處理提供了高效的解決方案。

模型特點

輕量強大

基於谷歌的 Gemma-2b 和 SigLIP，模型體積小但性能強大

數據豐富

使用了大量圖像數據進行預訓練和微調，提升了模型的泛化能力

高效訓練

在 4 張 A100 80GB 顯卡上僅需約 19 小時即可完成訓練

模型能力

圖像描述生成

視覺問答

圖像內容分析

多模態理解

使用案例

圖像理解

圖像描述

為輸入圖像生成詳細的文字描述

示例中成功描述了宇航員圖像的多個細節

角色識別

識別圖像中的角色及其動作

示例中準確識別了馬里奧、路易吉和耀西

幽默/創意內容分析

非常規場景理解

理解並描述幽默或非常規的圖像場景

示例中正確識別了'極限熨燙'的幽默場景

🚀 Cerule - 輕量強大的視覺模型

Cerule 是一款輕量卻強大的視覺語言模型，它基於谷歌新發布的 Gemma - 2b 和 SigLIP 構建，為圖像文本處理帶來了新的解決方案。

 ██████╗███████╗██████╗ ██╗   ██╗██╗     ███████╗
██╔════╝██╔════╝██╔══██╗██║   ██║██║     ██╔════╝
██║     █████╗  ██████╔╝██║   ██║██║     █████╗
██║     ██╔══╝  ██╔══██╗██║   ██║██║     ██╔══╝
╚██████╗███████╗██║  ██║╚██████╔╝███████╗███████╗
 ╚═════╝╚══════╝╚═╝  ╚═╝ ╚═════╝ ╚══════╝╚══════╝

我們訓練併發布了 “Cerule”，這是一個小巧但功能強大的視覺語言模型，它基於谷歌新發布的 Gemma - 2b 和谷歌的 SigLIP。

- 預訓練階段 : 650K 張圖像（LAION 子集）
- 微調階段 : 695K 張圖像（SVIT - mix - 665K - 由北京智源研究院修改的 Bunny mix）

訓練環境為 4 張 A100 80GB 顯卡，預訓練耗時約 6 小時，微調耗時約 13 小時。我們修改並適配了來自 Bunny 的訓練代碼。

🚀 快速開始

訓練

訓練代碼已發佈！你可以在下面的鏈接中獲取： https://github.com/tensoic/Cerule

推理

克隆以下倉庫並按照說明進行基於命令行界面（CLI）的推理： https://github.com/tensoic/Cerule

✨ 主要特性

輕量強大：基於谷歌的 Gemma - 2b 和 SigLIP，模型體積小但性能強大。
數據豐富：使用了大量圖像數據進行預訓練和微調，提升了模型的泛化能力。

📦 安裝指南

文檔中未提及具體安裝步驟，可參考訓練和推理部分的代碼倉庫說明。

💻 使用示例

圖像描述示例

圖像	示例
	描述圖像該圖像以有趣和超現實的方式描繪了一名穿著宇航服的男子，他坐在椅子上，手持一瓶綠色啤酒。男子身著白色宇航服，配有頭盔和手套。他腳穿黑白相間的鞋子，置身於沙地表面。背景中有一顆巨大的藍色星球，天空中可見月亮和星星。
	圖像中的角色有哪些？圖像中有三個角色，其中兩個是馬里奧和路易吉，第三個是耀西。描述角色的動作馬里奧和路易吉伸出手臂，好像在揮手。耀西站在一旁，雙臂交叉。
	這張圖像有什麼有趣之處？這張圖像非常幽默，它描繪了一名男子在黃色出租車的車背上熨衣服。這不是日常生活中常見的場景。

📚 詳細文檔

訓練設置

訓練代碼已發佈在 https://github.com/tensoic/Cerule。訓練使用了 4 張 A100 80GB 顯卡，預訓練耗時約 6 小時，微調耗時約 13 小時。

推理說明

克隆 https://github.com/tensoic/Cerule 倉庫並按照說明進行基於命令行界面（CLI）的推理。

🔧 技術細節

模型架構：基於谷歌的 Gemma - 2b 和 SigLIP。
訓練數據：
- 預訓練階段使用了 650K 張圖像（LAION 子集）。
- 微調階段使用了 695K 張圖像（SVIT - mix - 665K - 由北京智源研究院修改的 Bunny mix）。
訓練環境：4 張 A100 80GB 顯卡。