F

Fg Clip Base

由qihoo360開發
FG-CLIP是一個細粒度視覺與文本對齊模型,通過兩階段訓練實現全局和區域級別的圖像-文本對齊。
下載量 692
發布時間 : 5/8/2025

模型概述

FG-CLIP專注於細粒度視覺與文本對齊,通過兩階段訓練實現更精確的圖像-文本匹配能力。

模型特點

兩階段訓練
第一階段實現全局級別的標題-圖像對齊,第二階段補充區域級別的標題以優化對齊效果
細粒度對齊
能夠處理細粒度的視覺與文本對齊任務,包括區域級別的描述
密集特徵提取
支持獲取圖像的密集特徵,可用於更精細的視覺分析

模型能力

零樣本圖像分類
圖像-文本匹配
細粒度視覺分析
密集特徵提取

使用案例

圖像檢索
圖像分類
基於文本描述對圖像進行分類
在示例中正確識別貓的圖像
視覺分析
區域特徵分析
分析圖像中特定區域的特徵
可生成區域級別的相似度熱圖
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase