F

Florence 2 Large

由lodestone-horizon開發
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
下載量 14
發布時間 : 6/19/2024

模型概述

Florence-2是一種統一的視覺表徵模型,能夠通過簡單文本提示執行圖像描述、目標檢測、分割等多種視覺任務。它利用大規模數據集FLD-5B進行預訓練,在零樣本和微調場景中均表現卓越。

模型特點

統一視覺表徵
通過單一模型處理多種視覺任務,無需為每個任務單獨訓練模型
基於提示的任務執行
使用簡單文本提示(如<OD>、<CAPTION>)切換不同任務模式
大規模預訓練
使用包含1.26億張圖像和54億標註的FLD-5B數據集進行預訓練
強大的零樣本能力
在未針對特定任務訓練的情況下仍能表現出色

模型能力

圖像描述生成
目標檢測
圖像分割
文字識別
密集區域描述
區域提議
引用表達理解
視覺問答

使用案例

計算機視覺
自動圖像標註
為圖像生成描述性文本
在COCO描述測試集上CIDEr得分135.6
智能目標檢測
檢測圖像中的物體並定位
COCO檢測驗證mAP 37.5(零樣本)
文檔處理
文字識別
從圖像中提取文字內容
人機交互
視覺問答
回答關於圖像內容的問題
VQAv2測試準確率81.7(微調後)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase