F

Florence 2 Large Ft

zhangfaenによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのパラダイムを用いて様々な視覚および視覚-言語タスクを処理します。
ダウンロード数 14
リリース時間 : 7/2/2024

モデル概要

Florence-2は統一された視覚表現モデルで、単純なテキストプロンプトで画像キャプション、物体検出、セグメンテーションなどの多様な視覚タスクを実行できます。このモデルは1.26億枚の画像と54億のアノテーションを含むFLD-5Bデータセットでマルチタスク学習を行っています。

モデル特徴

マルチタスク統合処理
単純なテキストプロンプトで複数の視覚タスクを処理可能で、異なるタスクごとに専用アーキテクチャを設計する必要がありません
大規模事前学習
1.26億枚の画像と54億のアノテーションを含むFLD-5Bデータセットで学習済み
ゼロショット能力
未経験のタスクでも優れた性能を発揮し、特定タスクデータへの依存を軽減
精密な視覚理解
詳細な画像説明を生成し、画像内のオブジェクトや領域を正確に特定可能

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識
視覚的質問応答
領域提案
高密度領域記述
フレーズ位置特定

使用事例

コンピュータビジョン
インテリジェント画像分析
画像の詳細な説明と内容分析を自動生成
COCOキャプションテストでCIDErスコア135.6
物体検出
画像内のオブジェクトとその位置を識別
COCO検証データでmAP37.5を達成
ドキュメント処理
文書画像理解
文書画像内の文字と構造を認識・抽出
支援技術
視覚支援
視覚障害者向けに画像内容を説明
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase