F

Florence 2 Base

microsoftによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチを用いて幅広い視覚および視覚言語タスクを処理します。
ダウンロード数 316.74k
リリース時間 : 6/15/2024

モデル概要

Florence-2は先進的な視覚基盤モデルで、プロンプトベースのアプローチを用いて幅広い視覚および視覚言語タスクを処理します。単純なテキストプロンプトで画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行できます。

モデル特徴

マルチタスク統合処理
単純なテキストプロンプトで画像キャプション生成、物体検出、セグメンテーションなど多様な視覚タスクを実行可能。
大規模事前学習
126万枚の画像と54億のアノテーションを含むFLD-5Bデータセットで事前学習を実施。
ゼロショット学習能力
未学習のタスクでも優れた性能を発揮し、追加トレーニングなしで多様な視覚タスクを実行可能。

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識
領域提案
密領域記述
記述からフレーズ位置特定

使用事例

コンピュータビジョン
画像内容記述
画像の詳細な説明を生成
COCOキャプションタスクでCIDErスコア133.0
物体検出
画像中の物体を検出・位置特定
COCO検出タスクでmAP 34.7
視覚言語タスク
画像質問応答
画像内容に関する質問に回答
VQAv2タスクで精度81.7
参照表現理解
画像中で記述された特定領域を理解・位置特定
Refcocoタスクで精度93.4
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase