F

Fg Clip Large

qihoo360によって開発
FG-CLIPは細粒度視覚とテキストアラインメントモデルで、2段階のトレーニングによりグローバルおよびリージョンレベルの画像テキストアラインメントを実現し、細粒度視覚理解能力を向上させます。
ダウンロード数 538
リリース時間 : 4/29/2025

モデル概要

FG-CLIPは2段階トレーニング戦略を採用し、第1段階ではグローバルレベルの画像テキストペアで初期の細粒度アラインメントを実現し、第2段階ではリージョンレベルの記述を追加してアラインメント効果をさらに最適化します。細粒度視覚とテキストアラインメントタスクに適しています。

モデル特徴

2段階トレーニング
グローバルレベルとリージョンレベルの2段階トレーニングにより、より精密な視覚とテキストのアラインメントを実現します。
細粒度アラインメント
画像中の詳細な領域を捉え、テキスト記述と正確にアラインメントできます。
密な特徴可視化
画像領域の類似度ヒートマップを生成でき、モデルの注目点を直感的に表示します。

モデル能力

細粒度画像分類
視覚とテキストアラインメント
画像領域特徴抽出
ゼロショット画像分類

使用事例

画像理解
細粒度画像分類
微妙な違いがある画像を分類します。例えば、異なる品種の猫や犬の識別など。
視覚的に類似したカテゴリを正確に区別できます。
視覚検索
記述ベースの画像検索
テキスト記述に基づいて関連画像を検索します。
細粒度の記述を理解し、正確に一致する画像を返します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase