F

Florence 2 Large Ft

由 zhangfaen 开发
Florence-2是微软开发的先进视觉基础模型,采用基于提示的范式处理各类视觉与视觉-语言任务。
下载量 14
发布时间 : 7/2/2024

模型简介

Florence-2是一个统一的视觉表征模型,通过简单文本提示即可执行图像描述、目标检测、分割等多种视觉任务。该模型基于包含1.26亿图像、54亿标注的FLD-5B数据集进行多任务学习。

模型特点

多任务统一处理
通过简单文本提示即可处理多种视觉任务,无需为不同任务设计专门架构
大规模预训练
基于包含1.26亿图像、54亿标注的FLD-5B数据集进行训练
零样本能力
在未见过任务上也能表现出色,减少对特定任务数据的依赖
精细视觉理解
能够生成详细图像描述并精确定位图像中的对象和区域

模型能力

图像描述生成
目标检测
图像分割
文字识别
视觉问答
区域提议
密集区域描述
短语定位

使用案例

计算机视觉
智能图像分析
自动生成图像的详细描述和内容分析
在COCO描述测试CIDEr得分135.6
目标检测
识别图像中的对象及其位置
在COCO检测验证mAP达到37.5
文档处理
文档图像理解
识别和提取文档图像中的文字和结构
辅助技术
视觉辅助
为视障人士提供图像内容描述
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase