F

Fg Clip Large

由qihoo360開發
FG-CLIP是一種細粒度視覺與文本對齊模型,通過兩階段訓練實現全局和區域級的圖文對齊,提升細粒度視覺理解能力。
下載量 538
發布時間 : 4/29/2025

模型概述

FG-CLIP採用兩階段訓練策略,第一階段利用全局級圖文對實現初步細粒度對齊,第二階段通過補充區域級描述進一步優化對齊效果,適用於細粒度視覺與文本對齊任務。

模型特點

兩階段訓練
通過全局級和區域級兩階段訓練,實現更精細的視覺與文本對齊。
細粒度對齊
能夠捕捉圖像中的細節區域並與文本描述進行精確對齊。
稠密特徵可視化
支持生成圖像區域的相似度熱力圖,直觀展示模型關注點。

模型能力

細粒度圖像分類
視覺與文本對齊
圖像區域特徵提取
零樣本圖像分類

使用案例

圖像理解
細粒度圖像分類
對具有細微差別的圖像進行分類,如不同品種的貓狗識別。
能夠準確區分視覺上相似的類別。
視覺搜索
基於描述的圖像檢索
根據文本描述檢索相關圖像。
能夠理解細粒度描述並返回精確匹配的圖像。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase