🚀 SigLIP 2 So400m長上下文微調模型
本模型基於 SigLIP 2 進行微調。除了最大文本長度從基礎模型的 64 個標記增加到 256 個標記外,其功能與基礎模型完全相同。
🚀 快速開始
本模型是 SigLIP 2 So400m 的微調版本,主要提升了文本處理的上下文長度。以下是關於該模型的詳細信息。
✨ 主要特性
- 更長的文本處理能力:最大文本長度從 64 個標記提升到 256 個標記。
- 保留原始嵌入空間:在微調過程中,通過凍結部分參數確保原始嵌入空間得以保留。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
訓練設置
屬性 |
詳情 |
訓練樣本 |
10,000,000 |
預熱樣本 |
1,000,000 |
批量大小 |
256 |
學習率 |
4e - 4 |
調度策略 |
Cosine |
自動混合精度 |
bfloat16 |
模型權重 |
float32 |
優化器 |
AdamW |
權重衰減 |
0.2 |
梯度裁剪範數 |
1.0 |
最大標記長度 |
256 |
需要注意的是,這些設置並非最優。SigLIP 論文指出,權重衰減對微調 SigLIP 模型不利,並且這類模型通常受益於大的批量大小。這裡只是沿用了舊代碼中的一些默認設置。
測試集表現
在 16K 樣本的測試集上,模型初始損失為 17.65,最終損失為 2.51。
數據集
使用的數據集包含約 120 萬個文本 - 圖像對,數據來源多樣。其中約 25 萬個示例是隨機的 CommonCrawl 圖像 - 替代文本對,這應該最接近 so400m 的原始訓練數據。其餘示例來自 JoyCaption 數據集,該數據集包含各種類型的圖像以及配對的文本,如描述性標題、booru 標籤列表、穩定擴散提示和視覺問答。
微調過程
在訓練過程中,視覺塔以及 logit_scale、logit_bias 和文本塔的頭部保持完全凍結,文本塔的其餘部分保持解凍狀態。這樣做是為了確保微調過程保留原始嵌入空間,並且專注於提升上下文長度和文本類型。
位置嵌入擴展
位置嵌入的擴展方式是保留原始的 64 個嵌入在其原始位置不變,同時隨機初始化新位置。雖然沒有進行消融實驗來確定這是否是最優方法,但在實驗過程中發現模型對位置嵌入不太敏感。
實際表現
在實際應用中,該模型的表現略優於基礎的 SigLIP 2 so400m 模型,但傾向於更喜歡較短的文本。也就是說,當給定兩個都能完美描述圖像的文本時,模型往往會給較短的文本更高的權重。此外,該模型識別逼真圖像的 booru 標籤列表的能力也並不完美。
🔧 技術細節
模型微調
本模型在 SigLIP 2 的基礎上進行微調,通過調整訓練參數和凍結部分模型層,實現了上下文長度的擴展。在微調過程中,重點關注文本塔的調整,以適應更長的文本輸入。
位置嵌入處理
位置嵌入的擴展策略是在保留原始嵌入的基礎上隨機初始化新位置,這種策略在實驗中表現出一定的有效性,但仍有優化空間。
📄 許可證
本模型使用的許可證為 apache - 2.0。
致謝
感謝 SigLIP 2 團隊在改進優秀模型方面所做的傑出工作。
BibTeX 引用和引用信息
@misc{tschannen2025siglip2multilingualvisionlanguage,
title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features},
author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
year={2025},
eprint={2502.14786},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.14786},
}