C

CLIP ViT L 14 Spectrum Icons 20k

JianLiaoによって開発
CLIP ViT-L/14をファインチューニングした視覚言語モデルで、抽象的な画像-テキスト検索タスクに最適化されています
ダウンロード数 1,576
リリース時間 : 1/5/2025

モデル概要

このモデルは23,000の抽象的な画像-テキストペアでファインチューニングされており、テキストから画像、画像からテキストへの検索性能が向上し、特に抽象的な視覚特徴の処理に適しています

モデル特徴

抽象的な視覚特徴の理解
専用データセットによるファインチューニングにより、抽象的なアイコンやシンボルの理解能力が強化されています
効率的な検索能力
画像-テキスト双方向検索タスクにおいてR@1が70%、R@5が96%以上を達成しています
ドメイン適応性
基本モデルの汎化能力を維持しつつ、特定ドメインでのパフォーマンスを最適化しています

モデル能力

ゼロショット画像分類
テキストから画像検索
画像からテキスト検索
抽象的な視覚特徴マッチング

使用事例

情報検索
アイコンライブラリ検索
自然言語の記述で一致するアイコン画像を検索
R@1精度約70%
コンテンツ管理
自動画像タグ付け
抽象的なアイコンに記述的なテキストラベルを生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase