F

Florence 2 Large Ft

microsoftによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚と言語タスクを処理します。
ダウンロード数 269.44k
リリース時間 : 6/15/2024

モデル概要

Florence-2は先進的な視覚基盤モデルで、簡単なテキストプロンプトで画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行できます。1.26億枚の画像と54億のアノテーションを含むFLD-5Bデータセットに基づき、マルチタスク学習のブレークスルーを実現しました。

モデル特徴

マルチタスク学習能力
単一モデルで画像キャプション生成、物体検出、セグメンテーションなど複数の視覚タスクを処理できます。
プロンプトベースのタスク実行
簡単なテキストプロンプトで異なる視覚タスクを実行でき、タスク固有のモデルは不要です。
大規模事前学習
1.26億枚の画像と54億のアノテーションを含むFLD-5Bデータセットで事前学習されています。

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識
視覚的質問応答
密な領域記述
領域提案

使用事例

コンピュータビジョン
画像自動タグ付け
画像に詳細な説明を生成し、コンテンツ管理や検索システムに活用できます。
COCOキャプションテストセットでCIDErスコア143.3を達成
インテリジェント監視
監視カメラ映像中のオブジェクトや行動をリアルタイムで検出・識別します。
COCO検証セットでmAP37.5を達成
コンテンツ理解
ソーシャルメディアコンテンツ分析
ソーシャルメディア画像の内容を自動分析し、キー情報を抽出します。
Flickr30kテストセットでR@1 84.4を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase