C

CLIP Giga Config Fixed

Geonmoによって開発
LAION-2BデータセットでトレーニングされたCLIP大規模モデル、ViT-bigG-14アーキテクチャを採用、画像とテキストのクロスモーダル理解をサポート
ダウンロード数 109
リリース時間 : 6/28/2023

モデル概要

これは大規模な視覚-言語事前学習モデルで、画像とテキストを同じ意味空間にマッピングし、クロスモーダル検索と理解を実現

モデル特徴

大規模事前学習
39BトークンのLAION-2Bデータセットでトレーニング、強力なクロスモーダル理解能力を有する
効率的な視覚エンコーディング
ViT-bigG-14アーキテクチャを採用、高解像度画像入力を効率的に処理
ゼロショット転移能力
ファインチューニングなしで下流タスクに適用可能、画像テキスト検索やゼロショット分類など

モデル能力

画像テキスト類似度計算
クロスモーダル検索
ゼロショット画像分類
画像キャプション生成
テキスト誘導画像検索

使用事例

コンテンツ検索
EC製品検索
テキスト記述による関連製品画像の検索
検索精度とユーザー体験の向上
コンテンツ審査
違反コンテンツ検出
画像テキストマッチングによる違反コンテンツの検出
自動化されたコンテンツ審査プロセス
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase