🚀 SigLIP 2 So400mの長文コンテキスト向けファインチューニング
このモデルはSigLIP 2をベースにファインチューニングされています。ベースモデルでは最大テキスト長が64トークンでしたが、このモデルでは256トークンに拡張されており、それ以外の機能は同じです。
🚀 クイックスタート
このモデルは、SigLIP 2をベースにファインチューニングされたバージョンで、最大テキスト長が256トークンに拡張されています。以下に、トレーニング設定やデータセットの詳細を説明します。
✨ 主な機能
- 最大テキスト長が256トークンに拡張されている。
- ベースモデルと同じ機能を保持している。
📚 ドキュメント
トレーニング設定
- トレーニングサンプル数: 10,000,000
- ウォームアップサンプル数: 1,000,000
- バッチサイズ: 256
- 学習率: 4e-4
- スケジュール: コサイン
- AMP: bfloat16
- モデルの重み: float32
- オプティマイザ: AdamW
- ウェイトディケイ: 0.2
- 勾配ノルムのクリッピング: 1.0
- 最大トークン長: 256
これらの設定は必ずしも最適ではありません。SigLIPの論文では、ウェイトディケイはSigLIPモデルのファインチューニングには不適切であると示唆されており、この種のモデルは大きなバッチサイズで恩恵を受ける傾向があります。ここでは古いコードのデフォルト設定を使用しました。
テストセットでの性能
16Kサンプルのテストセットで、モデルは損失17.65から始まり、損失2.51で終了しました。
データセット
使用したデータセットは、約120万のテキスト-画像ペアから構成されており、様々なソースからのデータが含まれています。約25万のサンプルはランダムなCommonCrawlの画像-altテキストペアであり、so400mの元のトレーニングデータに最も近いはずです。残りのサンプルはJoyCaptionデータセットからのもので、様々な画像タイプと、説明的なキャプション、ブールタグリスト、Stable Diffusionのプロンプト、VQAなどのペアテキストが含まれています。
トレーニング時の凍結設定
トレーニング中、ビジョンタワー、logit_scale、logit_bias、およびテキストタワーのヘッドは完全に凍結され、テキストタワーの残りの部分は凍結されませんでした。これは、ファインチューニングプロセスが元の埋め込み空間を維持し、コンテキスト長とテキストの種類のみを改善することを確実にするためです。
位置埋め込みの拡張
位置埋め込みは、元の64の埋め込みを元の位置にそのまま残し、新しい位置をランダムに初期化することで拡張されました。これが最適なアプローチかどうかを判断するためのアブレーション実験は行われていません。ただし、実験中にモデルは位置埋め込みに対してかなり鈍感であることがわかりました。
実際の性能
実際には、このモデルはベースのSigLIP 2 so400mよりもわずかに優れた性能を示しますが、短いテキストを好む傾向があります。つまり、画像を完全に説明する2つのテキストが与えられた場合、モデルは短い方のテキストをより高く評価する傾向があります。また、写真のような画像のブールタグリストを認識する能力も不完全です。
🔧 技術詳細
- モデルはSigLIP 2をベースにファインチューニングされています。
- トレーニング中、ビジョンタワーと一部のパラメータは凍結され、テキストタワーの一部のみが更新されます。
- 位置埋め込みは拡張されていますが、最適な方法は不明です。
📄 ライセンス
このプロジェクトはApache 2.0ライセンスの下でライセンスされています。
謝辞
素晴らしいモデルを改善するという素晴らしい仕事をしたSigLIP 2チームに感謝します。
BibTeXエントリと引用情報
@misc{tschannen2025siglip2multilingualvisionlanguage,
title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features},
author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
year={2025},
eprint={2502.14786},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.14786},
}