A

Align Base

kakaobrainによって開発
ALIGNは視覚-言語デュアルエンコーダーモデルで、コントラスト学習により画像とテキスト表現のアラインメントを実現し、大規模ノイズデータを活用して先進的なクロスモーダル表現効果を達成します。
ダウンロード数 78.28k
リリース時間 : 2/24/2023

モデル概要

ALIGNは視覚エンコーダーとしてEfficientNet、テキストエンコーダーとしてBERTを使用し、COYO-700Mデータセットでコントラスト学習によりトレーニングされ、ゼロショット画像分類とマルチモーダル埋め込み検索をサポートします。

モデル特徴

ノイズデータトレーニング
膨大なノイズ画像テキストペアデータ(COYO-700M)を活用し、シンプルな方法と大規模データの組み合わせで最先端の表現効果が実現可能であることを証明
デュアルエンコーダーアーキテクチャ
視覚とテキストブランチを独立してエンコードし、コントラスト損失によりモダリティアラインメントを実現、効率性と柔軟性を両立
豊富なメタデータサポート
COYOデータセットに基づくトレーニングにより、美学スコア、透かし検出、顔カウントなどのメタデータを提供し、ダウンストリームアプリケーションの制御能力を強化

モデル能力

ゼロショット画像分類
画像テキスト類似度計算
クロスモーダル埋め込み検索
マルチモーダル表現学習

使用事例

画像理解
ゼロショット画像分類
微調整なしで任意のカテゴリの画像を分類可能
標準ベンチマークテストで専用分類モデルと同等の性能を達成
クロスモーダル検索
画像テキストマッチング
テキスト記述に最も関連する画像を検索、または画像にマッチするテキストを生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase