so400m-long開源視覺語言模型 - 基於SigLIP 2微調，長文本處理能力提升

首頁

So400m Long

由fancyfeast開發

基於SigLIP 2微調的視覺語言模型，最大文本長度從64提升至256標記

文本生成圖像

Transformers

英語開源協議:Apache-2.0 #長文本視覺匹配 #多模態嵌入 #圖庫標籤增強

下載量 27

發布時間 : 4/14/2025

模型概述

該模型是SigLIP 2的微調版本，專注於擴展上下文長度和文本類型適應，保留原始嵌入空間特徵的同時提升長文本處理能力

模型特點

擴展上下文長度

最大文本長度從基礎模型的64標記提升至256標記

保留原始特徵

凍結視覺編碼塔等關鍵部分，確保保留原始嵌入空間特徵

多類型文本適應

訓練數據包含描述性標註、圖庫標籤、提示詞等多種圖文組合

模型能力

圖文匹配

跨模態檢索

短文本偏好識別

多類型文本處理

使用案例

內容檢索

圖庫標籤匹配

根據圖像內容匹配相關標籤列表

對寫實類圖像的識別能力仍有提升空間

多模態應用

圖文對生成

為圖像生成描述性文本或提示詞

傾向生成較短文本描述

🚀 SigLIP 2 So400m長上下文微調模型

本模型基於 SigLIP 2 進行微調。除了最大文本長度從基礎模型的 64 個標記增加到 256 個標記外，其功能與基礎模型完全相同。

🚀 快速開始

本模型是 SigLIP 2 So400m 的微調版本，主要提升了文本處理的上下文長度。以下是關於該模型的詳細信息。

✨ 主要特性

更長的文本處理能力：最大文本長度從 64 個標記提升到 256 個標記。
保留原始嵌入空間：在微調過程中，通過凍結部分參數確保原始嵌入空間得以保留。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

訓練設置

屬性	詳情
訓練樣本	10,000,000
預熱樣本	1,000,000
批量大小	256
學習率	4e - 4
調度策略	Cosine
自動混合精度	bfloat16
模型權重	float32
優化器	AdamW
權重衰減	0.2
梯度裁剪範數	1.0
最大標記長度	256

需要注意的是，這些設置並非最優。SigLIP 論文指出，權重衰減對微調 SigLIP 模型不利，並且這類模型通常受益於大的批量大小。這裡只是沿用了舊代碼中的一些默認設置。

測試集表現

在 16K 樣本的測試集上，模型初始損失為 17.65，最終損失為 2.51。

數據集

使用的數據集包含約 120 萬個文本 - 圖像對，數據來源多樣。其中約 25 萬個示例是隨機的 CommonCrawl 圖像 - 替代文本對，這應該最接近 so400m 的原始訓練數據。其餘示例來自 JoyCaption 數據集，該數據集包含各種類型的圖像以及配對的文本，如描述性標題、booru 標籤列表、穩定擴散提示和視覺問答。

微調過程

在訓練過程中，視覺塔以及 logit_scale、logit_bias 和文本塔的頭部保持完全凍結，文本塔的其餘部分保持解凍狀態。這樣做是為了確保微調過程保留原始嵌入空間，並且專注於提升上下文長度和文本類型。

位置嵌入擴展

位置嵌入的擴展方式是保留原始的 64 個嵌入在其原始位置不變，同時隨機初始化新位置。雖然沒有進行消融實驗來確定這是否是最優方法，但在實驗過程中發現模型對位置嵌入不太敏感。

實際表現

在實際應用中，該模型的表現略優於基礎的 SigLIP 2 so400m 模型，但傾向於更喜歡較短的文本。也就是說，當給定兩個都能完美描述圖像的文本時，模型往往會給較短的文本更高的權重。此外，該模型識別逼真圖像的 booru 標籤列表的能力也並不完美。

🔧 技術細節

模型微調

本模型在 SigLIP 2 的基礎上進行微調，通過調整訓練參數和凍結部分模型層，實現了上下文長度的擴展。在微調過程中，重點關注文本塔的調整，以適應更長的文本輸入。

位置嵌入處理

位置嵌入的擴展策略是在保留原始嵌入的基礎上隨機初始化新位置，這種策略在實驗中表現出一定的有效性，但仍有優化空間。

📄 許可證

本模型使用的許可證為 apache - 2.0。

致謝

感謝 SigLIP 2 團隊在改進優秀模型方面所做的傑出工作。

BibTeX 引用和引用信息

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}