F

Florence 2 Base Ft

由lodestones開發
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
下載量 14
發布時間 : 6/19/2024

模型概述

Florence-2是一種多任務視覺基礎模型,能夠通過簡單文本提示執行圖像描述、目標檢測和分割等任務。其利用包含1.26億張圖像、54億標註的FLD-5B數據集實現多任務學習。

模型特點

多任務統一模型
通過簡單文本提示即可執行多種視覺任務,無需針對每個任務單獨訓練模型
大規模預訓練
使用包含1.26億張圖像、54億標註的FLD-5B數據集進行預訓練
零樣本能力
在未使用評估任務訓練數據的情況下,仍能表現出色

模型能力

圖像描述生成
目標檢測
圖像分割
文字識別
視覺問答
區域提議
密集區域描述
描述到短語定位

使用案例

計算機視覺
智能圖像分析
自動生成圖像描述和識別圖像中的對象
在COCO描述測試中CIDEr得分133.0
目標檢測
檢測圖像中的對象並定位其位置
在COCO檢測驗證中mAP達到34.7
視覺語言理解
視覺問答
回答關於圖像內容的自然語言問題
在VQAv2測試中準確率79.7
引用表達式理解
根據自然語言描述定位圖像中的特定區域
在RefCOCO驗證中準確率92.6
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase