S

So400m Long

由fancyfeast開發
基於SigLIP 2微調的視覺語言模型,最大文本長度從64提升至256標記
下載量 27
發布時間 : 4/14/2025

模型概述

該模型是SigLIP 2的微調版本,專注於擴展上下文長度和文本類型適應,保留原始嵌入空間特徵的同時提升長文本處理能力

模型特點

擴展上下文長度
最大文本長度從基礎模型的64標記提升至256標記
保留原始特徵
凍結視覺編碼塔等關鍵部分,確保保留原始嵌入空間特徵
多類型文本適應
訓練數據包含描述性標註、圖庫標籤、提示詞等多種圖文組合

模型能力

圖文匹配
跨模態檢索
短文本偏好識別
多類型文本處理

使用案例

內容檢索
圖庫標籤匹配
根據圖像內容匹配相關標籤列表
對寫實類圖像的識別能力仍有提升空間
多模態應用
圖文對生成
為圖像生成描述性文本或提示詞
傾向生成較短文本描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase