F

Florence 2 Large Ft

由zhangfaen開發
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的範式處理各類視覺與視覺-語言任務。
下載量 14
發布時間 : 7/2/2024

模型概述

Florence-2是一個統一的視覺表徵模型,通過簡單文本提示即可執行圖像描述、目標檢測、分割等多種視覺任務。該模型基於包含1.26億圖像、54億標註的FLD-5B數據集進行多任務學習。

模型特點

多任務統一處理
通過簡單文本提示即可處理多種視覺任務,無需為不同任務設計專門架構
大規模預訓練
基於包含1.26億圖像、54億標註的FLD-5B數據集進行訓練
零樣本能力
在未見過任務上也能表現出色,減少對特定任務數據的依賴
精細視覺理解
能夠生成詳細圖像描述並精確定位圖像中的對象和區域

模型能力

圖像描述生成
目標檢測
圖像分割
文字識別
視覺問答
區域提議
密集區域描述
短語定位

使用案例

計算機視覺
智能圖像分析
自動生成圖像的詳細描述和內容分析
在COCO描述測試CIDEr得分135.6
目標檢測
識別圖像中的對象及其位置
在COCO檢測驗證mAP達到37.5
文檔處理
文檔圖像理解
識別和提取文檔圖像中的文字和結構
輔助技術
視覺輔助
為視障人士提供圖像內容描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase