F

Florence 2 Large No Flash Attn

multimodalartによって開発
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチを用いて多様な視覚タスクを処理し、画像キャプションや物体検出など様々な機能を統一表現で実現します。
ダウンロード数 73.91k
リリース時間 : 8/29/2024

モデル概要

Florence-2はシーケンス・ツー・シーケンスの視覚基盤モデルで、簡単なテキストプロンプトを使用して画像キャプション、物体検出、セグメンテーションなど多様な視覚および視覚-言語タスクを実行できます。このモデルは1億2600万枚の画像を含むFLD-5Bデータセットで事前学習されており、強力なゼロショット能力とファインチューニング能力を備えています。

モデル特徴

統一視覚表現
単一のモデルアーキテクチャで複数の視覚タスクを処理し、専用モデルの必要性を減らします
プロンプト駆動タスク実行
<OD>のような簡単なテキストプロンプトを使用して異なるタスクモードに切り替えられます
大規模事前学習
1億2600万枚の画像、54億のアノテーションを含むFLD-5Bデータセットで訓練
ゼロショット能力
ファインチューニングなしで多様な視覚タスクで優れたパフォーマンスを発揮

モデル能力

画像キャプション生成
物体検出
画像セグメンテーション
文字認識
領域提案生成
密領域記述
視覚的質問応答
参照表現理解

使用事例

コンピュータビジョン
インテリジェント画像分析
自動的に画像キャプションを生成し、主要な物体を識別
COCOキャプションテストセットでCIDErスコア135.6
ドキュメント処理
画像中の文字情報を識別・抽出
領域位置特定付き文字認識をサポート
コンテンツ理解
ソーシャルメディア分析
画像内容を分析し、タグと説明を生成
電子商取引
製品画像の自動キャプション生成と属性識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase