F

Florence 2 Base Ft

microsoftによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚と言語タスクを処理します。
ダウンロード数 56.78k
リリース時間 : 6/15/2024

モデル概要

Florence-2は統一された視覚表現モデルで、簡単なテキストプロンプトを通じて画像記述、物体検出、セグメンテーションなど様々な視覚タスクを実行できます。

モデル特徴

統一視覚表現
単一モデルで画像記述、物体検出、セグメンテーションなど複数の視覚タスクを処理可能。
プロンプトベースのタスク実行
簡単なテキストプロンプトで異なるタスクを実行可能で、個別モデルが不要。
大規模事前学習
1.26億枚の画像と54億のアノテーションを含むFLD-5Bデータセットで学習。

モデル能力

画像キャプション生成
細粒度画像記述
物体検出
高密度領域記述
文字認識(OCR)

使用事例

コンピュータビジョン
画像キャプション生成
画像に対する自然言語記述を生成
COCOキャプションCIDErスコア140.0
物体検出
画像中の物体を検出・位置特定
mAP 41.4
視覚的質問応答
画像内容に関する質問に回答
正解率79.7%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase