V

Vit L 16 HTxt Recap CLIP

UCSC-VLAAによって開発
Recap-DataComp-1BデータセットでトレーニングされたCLIPモデルで、LLaMA-3で生成されたアノテーションテキストを使用してトレーニングされ、ゼロショット画像分類タスクに適しています
ダウンロード数 538
リリース時間 : 6/13/2024

モデル概要

対比型画像テキストモデルで、再アノテーションされたウェブ画像データでトレーニングされ、強力なゼロショット画像分類能力を備えています

モデル特徴

LLaMA-3再アノテーション
LLaMA-3で生成されたアノテーションテキストを使用して数十億のウェブ画像を再アノテーションしてトレーニング
大規模トレーニング
Recap-DataComp-1B大規模データセットに基づいてトレーニング
ゼロショット能力
微調整なしでさまざまな画像分類タスクに直接適用可能

モデル能力

ゼロショット画像分類
画像テキストマッチング
クロスモーダル特徴抽出

使用事例

画像理解
画像分類
トレーニングなしで画像を分類可能
例として'フレンチドーナツ'画像の分類精度100%を示す
コンテンツモデレーション
不適切コンテンツ検出
画像内の不適切コンテンツを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase