so400m長（400m-long）のオープンソースビジョン言語モデル - SigLIP 2に基づくファインチューニングで長文処理能力が向上

ホーム

So400m Long

fancyfeastによって開発

SigLIP 2を微調整した視覚言語モデルで、最大テキスト長を64から256トークンに拡張

テキスト生成画像

Transformers

英語オープンソースライセンス:Apache-2.0 #長文テキスト視覚マッチング #マルチモーダル埋め込み #ギャラリータグ拡張

ダウンロード数 27

リリース時間 : 4/14/2025

モデル概要

このモデルはSigLIP 2の微調整版で、コンテキスト長の拡張とテキストタイプ適応に焦点を当て、元の埋め込み空間特徴を保持しつつ長文処理能力を向上

モデル特徴

拡張コンテキスト長

最大テキスト長を基本モデルの64トークンから256トークンに拡張

元の特徴保持

視覚エンコーダタワーなどの主要部分を凍結し、元の埋め込み空間特徴を確実に保持

多種テキスト適応

訓練データには記述的注釈、ギャラリータグ、プロンプトなど多様な画像テキスト組み合わせを含む

モデル能力

画像テキストマッチング

クロスモーダル検索

短文嗜好認識

多種テキスト処理

使用事例

コンテンツ検索

ギャラリータグマッチング

画像内容に基づき関連タグリストをマッチング

写実的画像の認識能力にはまだ改善余地あり

マルチモーダル応用

画像テキストペア生成

画像に対して記述的テキストやプロンプトを生成

短いテキスト記述を生成する傾向あり

🚀 SigLIP 2 So400mの長文コンテキスト向けファインチューニング

このモデルはSigLIP 2をベースにファインチューニングされています。ベースモデルでは最大テキスト長が64トークンでしたが、このモデルでは256トークンに拡張されており、それ以外の機能は同じです。

🚀 クイックスタート

このモデルは、SigLIP 2をベースにファインチューニングされたバージョンで、最大テキスト長が256トークンに拡張されています。以下に、トレーニング設定やデータセットの詳細を説明します。

✨ 主な機能

最大テキスト長が256トークンに拡張されている。
ベースモデルと同じ機能を保持している。

📚 ドキュメント

トレーニング設定

トレーニングサンプル数: 10,000,000
ウォームアップサンプル数: 1,000,000
バッチサイズ: 256
学習率: 4e-4
スケジュール: コサイン
AMP: bfloat16
モデルの重み: float32
オプティマイザ: AdamW
ウェイトディケイ: 0.2
勾配ノルムのクリッピング: 1.0
最大トークン長: 256

これらの設定は必ずしも最適ではありません。SigLIPの論文では、ウェイトディケイはSigLIPモデルのファインチューニングには不適切であると示唆されており、この種のモデルは大きなバッチサイズで恩恵を受ける傾向があります。ここでは古いコードのデフォルト設定を使用しました。

テストセットでの性能

16Kサンプルのテストセットで、モデルは損失17.65から始まり、損失2.51で終了しました。

データセット

使用したデータセットは、約120万のテキスト-画像ペアから構成されており、様々なソースからのデータが含まれています。約25万のサンプルはランダムなCommonCrawlの画像-altテキストペアであり、so400mの元のトレーニングデータに最も近いはずです。残りのサンプルはJoyCaptionデータセットからのもので、様々な画像タイプと、説明的なキャプション、ブールタグリスト、Stable Diffusionのプロンプト、VQAなどのペアテキストが含まれています。

トレーニング時の凍結設定

トレーニング中、ビジョンタワー、logit_scale、logit_bias、およびテキストタワーのヘッドは完全に凍結され、テキストタワーの残りの部分は凍結されませんでした。これは、ファインチューニングプロセスが元の埋め込み空間を維持し、コンテキスト長とテキストの種類のみを改善することを確実にするためです。

位置埋め込みの拡張

位置埋め込みは、元の64の埋め込みを元の位置にそのまま残し、新しい位置をランダムに初期化することで拡張されました。これが最適なアプローチかどうかを判断するためのアブレーション実験は行われていません。ただし、実験中にモデルは位置埋め込みに対してかなり鈍感であることがわかりました。

実際の性能

実際には、このモデルはベースのSigLIP 2 so400mよりもわずかに優れた性能を示しますが、短いテキストを好む傾向があります。つまり、画像を完全に説明する2つのテキストが与えられた場合、モデルは短い方のテキストをより高く評価する傾向があります。また、写真のような画像のブールタグリストを認識する能力も不完全です。

🔧 技術詳細

モデルはSigLIP 2をベースにファインチューニングされています。
トレーニング中、ビジョンタワーと一部のパラメータは凍結され、テキストタワーの一部のみが更新されます。
位置埋め込みは拡張されていますが、最適な方法は不明です。

📄 ライセンス

このプロジェクトはApache 2.0ライセンスの下でライセンスされています。

謝辞

素晴らしいモデルを改善するという素晴らしい仕事をしたSigLIP 2チームに感謝します。

BibTeXエントリと引用情報

@misc{tschannen2025siglip2multilingualvisionlanguage,
      title={SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features}, 
      author={Michael Tschannen and Alexey Gritsenko and Xiao Wang and Muhammad Ferjad Naeem and Ibrahim Alabdulmohsin and Nikhil Parthasarathy and Talfan Evans and Lucas Beyer and Ye Xia and Basil Mustafa and Olivier Hénaff and Jeremiah Harmsen and Andreas Steiner and Xiaohua Zhai},
      year={2025},
      eprint={2502.14786},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.14786}, 
}