F

Florence 2 Large Ft Fix

AdithyaSKによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基礎モデルで、プロンプトベースの方法を用いて幅広い視覚および視覚言語タスクを処理します。
ダウンロード数 23
リリース時間 : 6/25/2024

モデル概要

Florence-2は統一的な視覚表現モデルで、簡単なテキストプロンプトによって画像記述、物体検出、セグメンテーションなどの様々な視覚タスクを実行できます。

モデル特徴

統一視覚表現
単一のモデルで複数の視覚タスクを処理し、各タスクに対して個別にモデルを訓練する必要がありません。
プロンプトベースのタスク実行
簡単なテキストプロンプト(例:<OD>、<CAPTION>)で異なるタスクモードを切り替えます。
大規模事前学習データ
FLD - 5Bデータセット(1.26億枚の画像、54億のアノテーション)を使用してマルチタスク学習を行います。
ゼロショットと微調整能力
ゼロショットと微調整のシナリオで優れた性能を発揮します。

モデル能力

画像記述生成
物体検出
画像セグメンテーション
文字認識
領域提案生成
密集領域記述
視覚質問応答

使用事例

コンピュータビジョン
スマート画像アノテーション
画像に詳細な記述またはタイトルを生成します。
基本、詳細、超詳細の3つの記述レベルをサポートします。
スマート物体検出
画像内の物体を検出し、位置をアノテーションします。
バウンディングボックスとカテゴリラベルを出力します。
文書処理
文書文字認識
画像内の文字内容を認識します。
領域位置付きの文字認識をサポートします。
視覚質問応答
画像内容質問応答
画像内容に関する自然言語の質問に回答します。
VQAv2などのベンチマークテストで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase