C

Cultureclip

lukahhによって開発
CLIP-ViT-B/32をファインチューニングした視覚言語モデルで、画像-テキストマッチングタスクに適しています
ダウンロード数 20
リリース時間 : 5/10/2025

モデル概要

このモデルはopenai/clip-vit-base-patch32をベースにファインチューニングしたバージョンで、主に画像とテキストの関連付けタスクに使用されます

モデル特徴

視覚言語共同訓練
CLIPアーキテクチャを採用し、視覚とテキスト入力を同時に処理します
ファインチューニング最適化
特定のデータセットでファインチューニングを行い、特定領域のパフォーマンス向上が期待できます

モデル能力

画像-テキストマッチング
クロスモーダル検索
視覚コンテンツ理解

使用事例

コンテンツ検索
画像検索
テキスト記述に基づいて関連画像を検索
テキスト推薦
画像内容に基づいて関連テキスト記述を推薦
コンテンツ審査
画像テキスト整合性チェック
画像とテキスト記述が一致しているか検証
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase