F

Florence 2 Large

Binaryyによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚および視覚言語タスクを処理します。
ダウンロード数 24
リリース時間 : 6/27/2024

モデル概要

Florence-2は統一された視覚表現モデルで、簡単なテキストプロンプトを通じて画像キャプション生成、物体検出、セグメンテーションなど様々な視覚タスクを実行できます。1.26億枚の画像と54億のアノテーションを含むFLD-5Bデータセットでトレーニングされ、ゼロショットやファインチューニングのシナリオでも優れた性能を発揮します。

モデル特徴

統一視覚表現
単一モデルで複数の視覚タスクを処理し、専用モデルの必要性を低減
プロンプトベースのタスク実行
簡単なテキストプロンプトで異なるタスクモードに切り替え可能
大規模事前トレーニング
1.26億画像と54億アノテーションを含むFLD-5Bデータセットを使用
ゼロショット能力
特定のトレーニングを受けていないタスクでも優れた性能を発揮

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識
領域提案
密領域記述
視覚的質問応答
参照表現理解

使用事例

コンピュータビジョン
インテリジェント画像分析
画像の自動説明生成と画像内オブジェクトの検出
COCOキャプションテストで135.6 CIDErスコアを獲得
ドキュメント処理
画像内の文字情報を認識・抽出
支援技術
視覚支援
視覚障害者向けに画像内容を説明
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase