F

Florence 2 Large No Flash Attn

Developed by multimodalart
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理多样化视觉任务,通过统一表征实现图像描述、目标检测等多种功能。
Downloads 73.91k
Release Time : 8/29/2024

Model Overview

Florence-2是一种序列到序列的视觉基础模型,能够通过简单文本提示执行多种视觉和视觉-语言任务,包括图像描述、目标检测、分割等。该模型在包含1.26亿张图像的FLD-5B数据集上进行预训练,具有强大的零样本和微调能力。

Model Features

统一视觉表征
通过单一模型架构处理多种视觉任务,减少专用模型需求
提示驱动任务执行
使用简单文本提示(如<OD>)即可切换不同任务模式
大规模预训练
基于1.26亿张图像、54亿标注的FLD-5B数据集训练
零样本能力
无需微调即可在多种视觉任务上取得优异表现

Model Capabilities

图像描述生成
目标检测
图像分割
文字识别
区域提议生成
密集区域描述
视觉问答
参照表达理解

Use Cases

计算机视觉
智能图像分析
自动生成图像描述并识别关键物体
在COCO描述测试集上CIDEr得分135.6
文档处理
识别和提取图像中的文字信息
支持带区域定位的文字识别
内容理解
社交媒体分析
分析图像内容并生成标签和描述
电子商务
自动生成产品图像描述和属性识别
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase