F

Florence 2 Base Ft

由microsoft開發
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
下載量 56.78k
發布時間 : 6/15/2024

模型概述

Florence-2是一種統一的視覺表徵模型,能夠通過簡單文本提示執行圖像描述、目標檢測和分割等多種視覺任務。

模型特點

統一視覺表徵
通過單一模型處理多種視覺任務,包括圖像描述、目標檢測和分割等。
基於提示的任務執行
通過簡單文本提示即可執行不同任務,無需單獨模型。
大規模預訓練
使用包含1.26億張圖像、54億標註的FLD-5B數據集進行訓練。

模型能力

圖像描述生成
細粒度圖像描述
目標檢測
密集區域描述
文字識別(OCR)

使用案例

計算機視覺
圖像描述生成
為圖像生成自然語言描述
COCO描述CIDEr得分140.0
目標檢測
檢測圖像中的物體並定位
mAP 41.4
視覺問答
回答關於圖像內容的問題
準確率79.7%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase