F

Florence 2 Base Ft

lodestonesによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチにより幅広い視覚・視覚言語タスクを処理します。
ダウンロード数 14
リリース時間 : 6/19/2024

モデル概要

Florence-2はマルチタスク視覚基盤モデルで、簡単なテキストプロンプトにより画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行可能です。1.26億枚の画像と54億のアノテーションを含むFLD-5Bデータセットを活用したマルチタスク学習を実現しています。

モデル特徴

マルチタスク統一モデル
簡単なテキストプロンプトで複数の視覚タスクを実行可能、各タスクごとに個別にモデルを訓練する必要がありません
大規模事前学習
1.26億枚の画像と54億のアノテーションを含むFLD-5Bデータセットを使用して事前学習を実施
ゼロショット能力
評価タスクの訓練データを使用しなくても優れた性能を発揮

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識
視覚的質問応答
領域提案
密な領域記述
記述からフレーズ位置特定

使用事例

コンピュータビジョン
インテリジェント画像分析
自動的に画像の説明を生成し、画像内のオブジェクトを認識
COCOキャプションテストでCIDErスコア133.0を達成
物体検出
画像内のオブジェクトを検出し位置を特定
COCO検証データでmAP34.7を達成
視覚言語理解
視覚的質問応答
画像内容に関する自然言語質問に回答
VQAv2テストで79.7%の精度
参照式理解
自然言語記述に基づき画像内の特定領域を位置特定
RefCOCO検証データで92.6%の精度
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase