F

Fg Clip Base

Developed by qihoo360
FG-CLIPは細粒度視覚とテキストのアラインメントモデルで、2段階のトレーニングによりグローバルおよび領域レベルの画像-テキストアラインメントを実現します。
Downloads 692
Release Time : 5/8/2025

Model Overview

FG-CLIPは細粒度視覚とテキストのアラインメントに焦点を当て、2段階のトレーニングによりより正確な画像-テキストマッチング能力を実現します。

Model Features

2段階トレーニング
第1段階でグローバルレベルのキャプション-画像アラインメントを実現し、第2段階で領域レベルのキャプションを追加してアラインメント効果を最適化
細粒度アラインメント
領域レベルの記述を含む細粒度の視覚とテキストのアラインメントタスクを処理可能
密な特徴抽出
画像の密な特徴を取得可能で、より詳細な視覚分析に利用可能

Model Capabilities

ゼロショット画像分類
画像-テキストマッチング
細粒度視覚分析
密な特徴抽出

Use Cases

画像検索
画像分類
テキスト記述に基づいて画像を分類
例では猫の画像を正しく識別
視覚分析
領域特徴分析
画像内の特定領域の特徴を分析
領域レベルの類似度ヒートマップを生成可能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase