F

Florence 2 Large

lodestone-horizonによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚および視覚言語タスクを処理します。
ダウンロード数 14
リリース時間 : 6/19/2024

モデル概要

Florence-2は統一された視覚表現モデルで、単純なテキストプロンプトを使用して画像キャプション生成、物体検出、セグメンテーションなどの多様な視覚タスクを実行できます。大規模データセットFLD-5Bで事前学習されており、ゼロショットやファインチューニングのシナリオで優れた性能を発揮します。

モデル特徴

統一視覚表現
単一モデルで複数の視覚タスクを処理でき、各タスクごとに個別にモデルを訓練する必要がありません
プロンプトベースのタスク実行
<OD>や<CAPTION>などの簡単なテキストプロンプトを使用して異なるタスクモードを切り替えます
大規模事前学習
1.26億枚の画像と54億のアノテーションを含むFLD-5Bデータセットで事前学習されています
強力なゼロショット能力
特定のタスク向けに訓練されていない場合でも優れた性能を発揮します

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識
密な領域記述
領域提案
参照表現理解
視覚的質問応答

使用事例

コンピュータビジョン
自動画像キャプション
画像に対して記述的なテキストを生成します
COCOキャプションテストセットでCIDErスコア135.6
インテリジェント物体検出
画像中の物体を検出して位置特定します
COCO検証mAP 37.5(ゼロショット)
ドキュメント処理
文字認識
画像からテキスト内容を抽出します
ヒューマンコンピュータインタラクション
視覚的質問応答
画像内容に関する質問に答えます
VQAv2テスト精度81.7(ファインチューニング後)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase