S

So400m Long

fancyfeastによって開発
SigLIP 2を微調整した視覚言語モデルで、最大テキスト長を64から256トークンに拡張
ダウンロード数 27
リリース時間 : 4/14/2025

モデル概要

このモデルはSigLIP 2の微調整版で、コンテキスト長の拡張とテキストタイプ適応に焦点を当て、元の埋め込み空間特徴を保持しつつ長文処理能力を向上

モデル特徴

拡張コンテキスト長
最大テキスト長を基本モデルの64トークンから256トークンに拡張
元の特徴保持
視覚エンコーダタワーなどの主要部分を凍結し、元の埋め込み空間特徴を確実に保持
多種テキスト適応
訓練データには記述的注釈、ギャラリータグ、プロンプトなど多様な画像テキスト組み合わせを含む

モデル能力

画像テキストマッチング
クロスモーダル検索
短文嗜好認識
多種テキスト処理

使用事例

コンテンツ検索
ギャラリータグマッチング
画像内容に基づき関連タグリストをマッチング
写実的画像の認識能力にはまだ改善余地あり
マルチモーダル応用
画像テキストペア生成
画像に対して記述的テキストやプロンプトを生成
短いテキスト記述を生成する傾向あり
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase