F

Florence 2 Large No Flash Attn

由multimodalart開發
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理多樣化視覺任務,通過統一表徵實現圖像描述、目標檢測等多種功能。
下載量 73.91k
發布時間 : 8/29/2024

模型概述

Florence-2是一種序列到序列的視覺基礎模型,能夠通過簡單文本提示執行多種視覺和視覺-語言任務,包括圖像描述、目標檢測、分割等。該模型在包含1.26億張圖像的FLD-5B數據集上進行預訓練,具有強大的零樣本和微調能力。

模型特點

統一視覺表徵
通過單一模型架構處理多種視覺任務,減少專用模型需求
提示驅動任務執行
使用簡單文本提示(如<OD>)即可切換不同任務模式
大規模預訓練
基於1.26億張圖像、54億標註的FLD-5B數據集訓練
零樣本能力
無需微調即可在多種視覺任務上取得優異表現

模型能力

圖像描述生成
目標檢測
圖像分割
文字識別
區域提議生成
密集區域描述
視覺問答
參照表達理解

使用案例

計算機視覺
智能圖像分析
自動生成圖像描述並識別關鍵物體
在COCO描述測試集上CIDEr得分135.6
文檔處理
識別和提取圖像中的文字信息
支持帶區域定位的文字識別
內容理解
社交媒體分析
分析圖像內容並生成標籤和描述
電子商務
自動生成產品圖像描述和屬性識別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase