F

Fg Clip Base

qihoo360によって開発
FG-CLIPは細粒度視覚とテキストのアラインメントモデルで、2段階のトレーニングによりグローバルおよび領域レベルの画像-テキストアラインメントを実現します。
ダウンロード数 692
リリース時間 : 5/8/2025

モデル概要

FG-CLIPは細粒度視覚とテキストのアラインメントに焦点を当て、2段階のトレーニングによりより正確な画像-テキストマッチング能力を実現します。

モデル特徴

2段階トレーニング
第1段階でグローバルレベルのキャプション-画像アラインメントを実現し、第2段階で領域レベルのキャプションを追加してアラインメント効果を最適化
細粒度アラインメント
領域レベルの記述を含む細粒度の視覚とテキストのアラインメントタスクを処理可能
密な特徴抽出
画像の密な特徴を取得可能で、より詳細な視覚分析に利用可能

モデル能力

ゼロショット画像分類
画像-テキストマッチング
細粒度視覚分析
密な特徴抽出

使用事例

画像検索
画像分類
テキスト記述に基づいて画像を分類
例では猫の画像を正しく識別
視覚分析
領域特徴分析
画像内の特定領域の特徴を分析
領域レベルの類似度ヒートマップを生成可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase