F

Florence 2 Large

microsoftによって開発
Florence-2はマイクロソフトが開発した先進的なビジョンファウンデーションモデルで、プロンプトベースのアプローチにより幅広い視覚と言語タスクを処理します。
ダウンロード数 579.23k
リリース時間 : 6/15/2024

モデル概要

Florence-2は先進的なビジョンファウンデーションモデルで、シンプルなテキストプロンプトにより画像キャプション生成、物体検出、セグメンテーションなどのタスクを実行します。FLD-5Bデータセットを活用したマルチタスク学習により、ゼロショットやファインチューニングのシナリオでも優れた性能を発揮します。

モデル特徴

統一視覚表現
単一モデルで画像キャプション生成、物体検出、セグメンテーションなど多様な視覚タスクを処理
プロンプト駆動
シンプルなテキストプロンプトで様々なタスクを実行可能、複雑な設定不要
大規模事前学習
FLD-5Bデータセット(1.26億枚の画像、54億のアノテーション)で学習
強力なゼロショット能力
特定の訓練を受けていないタスクでも優れた性能を発揮

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識(OCR)
視覚的質問応答
密領域記述
領域提案

使用事例

コンピュータビジョン
インテリジェント画像分析
画像中の物体、シーン、文字を自動認識
COCO物体検出AP39.8達成
アクセシビリティ技術
視覚障害者向けに詳細な画像説明を生成
コンテンツ理解
ソーシャルメディア分析
ソーシャルメディア画像コンテンツを自動分析
ドキュメント処理
画像ドキュメント内の文字と構造を認識・抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase