F

Florence 2 Large Ft Safetensors

mrhendreyによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアーキテクチャにより様々な視覚と言語タスクを統一的に処理
ダウンロード数 162
リリース時間 : 10/8/2024

モデル概要

このモデルはシーケンス・ツー・シーケンスアーキテクチャによりマルチタスク処理能力を実現、画像キャプション生成、物体検出、セグメンテーションなどのタスクをサポート、FLD-5B大規模データセットで学習

モデル特徴

統一視覚タスク処理
簡単なテキストプロンプトで多様な視覚タスクを実行可能、特定タスクモデル不要
大規模事前学習
126万枚の画像と54億のアノテーションを含むFLD-5Bデータセットで学習
ゼロショット転移能力
未評価タスクでも優れた性能を発揮

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識
視覚質問応答
参照理解
領域記述生成

使用事例

コンピュータビジョン
インテリジェント画像分析
自動的に画像説明を生成し、画像中のオブジェクトを検出
COCO検証mAP37.5達成
文書処理
画像中の文字とその位置を認識
領域付き文字認識をサポート
ヒューマンコンピュータインタラクション
視覚質問応答システム
画像内容に関する自然言語質問に回答
VQAv2精度81.7達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase