F

Florence 2 Base

由microsoft開發
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
下載量 316.74k
發布時間 : 6/15/2024

模型概述

Florence-2是一種先進的視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。它能通過簡單文本提示執行圖像描述、目標檢測和分割等任務。

模型特點

多任務統一處理
通過簡單文本提示即可執行多種視覺任務,如圖像描述、目標檢測和分割等。
大規模預訓練
利用包含126萬張圖像、54億標註的FLD-5B數據集進行預訓練。
零樣本學習能力
在未見過的任務上表現出色,無需額外訓練即可執行多種視覺任務。

模型能力

圖像描述
目標檢測
圖像分割
文字識別
區域提議
密集區域描述
描述到短語定位

使用案例

計算機視覺
圖像內容描述
為圖像生成詳細描述
在COCO描述任務上CIDEr得分133.0
目標檢測
檢測圖像中的物體並定位
在COCO檢測任務上mAP 34.7
視覺語言任務
圖像問答
回答關於圖像內容的問題
在VQAv2任務上準確率81.7
參照表達理解
理解並定位圖像中描述的特定區域
在Refcoco任務上準確率93.4
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase