F

Florence 2 Large Ft Fix

由AdithyaSK開發
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
下載量 23
發布時間 : 6/25/2024

模型概述

Florence-2是一種統一的視覺表徵模型,能夠通過簡單文本提示執行圖像描述、目標檢測、分割等多種視覺任務。

模型特點

統一視覺表徵
通過單一模型處理多種視覺任務,無需為每個任務單獨訓練模型
基於提示的任務執行
通過簡單文本提示(如<OD>、<CAPTION>)切換不同任務模式
大規模預訓練數據
使用FLD-5B數據集(1.26億張圖像,54億標註)進行多任務學習
零樣本與微調能力
在零樣本和微調場景下均表現優異

模型能力

圖像描述生成
目標檢測
圖像分割
文字識別
區域提議生成
密集區域描述
視覺問答

使用案例

計算機視覺
智能圖像標註
為圖像生成詳細描述或標題
支持基礎、詳細和超詳細三種描述級別
智能目標檢測
檢測圖像中的物體並標註位置
輸出邊界框和類別標籤
文檔處理
文檔文字識別
識別圖像中的文字內容
支持帶區域定位的文字識別
視覺問答
圖像內容問答
回答關於圖像內容的自然語言問題
在VQAv2等基準測試中表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase