F

Florence 2 Large Ft Safetensors

由mrhendrey開發
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的架構統一處理各類視覺與視覺-語言任務
下載量 162
發布時間 : 10/8/2024

模型概述

該模型通過序列到序列架構實現多任務處理能力,支持圖像描述、目標檢測、分割等任務,基於FLD-5B大規模數據集訓練

模型特點

統一視覺任務處理
通過簡單文本提示即可完成多種視覺任務,無需特定任務模型
大規模預訓練
基於包含126萬張圖像和54億標註的FLD-5B數據集訓練
零樣本遷移能力
在未見過的評測任務上展現優異性能

模型能力

圖像描述生成
目標檢測
圖像分割
文字識別
視覺問答
指代理解
區域描述生成

使用案例

計算機視覺
智能圖像分析
自動生成圖像描述和檢測圖像中的對象
COCO檢測驗證mAP達37.5
文檔處理
識別圖像中的文字及其位置
支持帶區域的文字識別
人機交互
視覺問答系統
回答關於圖像內容的自然語言問題
VQAv2準確率達81.7
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase