F

Florence 2 Large

由microsoft開發
Florence-2是微軟推出的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
下載量 579.23k
發布時間 : 6/15/2024

模型概述

Florence-2是一種先進的視覺基礎模型,通過簡單文本提示執行圖像描述、目標檢測和分割等任務。其利用FLD-5B數據集實現多任務學習,在零樣本和微調場景中均表現優異。

模型特點

統一視覺表徵
通過單一模型處理多種視覺任務,包括圖像描述、目標檢測、分割等
提示驅動
使用簡單文本提示即可執行不同任務,無需複雜配置
大規模預訓練
基於FLD-5B數據集(1.26億張圖像,54億標註)訓練
強零樣本能力
在未專門訓練的任務上也能表現出色

模型能力

圖像描述生成
目標檢測
圖像分割
文字識別(OCR)
視覺問答
密集區域描述
區域提議

使用案例

計算機視覺
智能圖像分析
自動識別圖像中的物體、場景和文字
COCO目標檢測AP達39.8
無障礙技術
為視障人士生成詳細的圖像描述
內容理解
社交媒體分析
自動分析社交媒體圖像內容
文檔處理
識別和提取圖像文檔中的文字和結構
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase