F

Florence 2 Large Ft

anditoによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで様々な視覚と言語タスクを処理します。
ダウンロード数 93
リリース時間 : 6/21/2024

モデル概要

Florence-2は簡単なテキストプロンプトで画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行でき、FLD-5B大規模データセットを基にマルチタスク学習を実現しています。

モデル特徴

統一視覚表現
単一モデルで複数の視覚タスクを処理し、専用モデルの必要性を低減
プロンプト駆動
簡単なテキストプロンプトで異なるタスクモードに切り替え
大規模事前学習
FLD-5Bデータセット(1.26億画像、54億アノテーション)で学習

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識
視覚的質問応答
指示表現理解

使用事例

コンテンツ理解
自動画像タグ付け
画像に対して詳細な説明を生成
COCOキャプションテストセットでCIDErスコア143.3
視覚分析
物体検出
画像中の物体とその位置を識別
COCO検証mAP 37.5(ゼロショット)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase