J

Japanese Clip Vit B 16

rinnaによって開発
rinna株式会社が訓練した日本語CLIPモデルで、日本語テキストと画像の対比学習をサポート
ダウンロード数 26.12k
リリース時間 : 4/27/2022

モデル概要

このモデルはCLIPアーキテクチャに基づくマルチモーダルモデルで、日本語テキストと画像を同一の特徴空間にマッピングし、クロスモーダル検索や分類タスクを実現します。

モデル特徴

日本語専用
日本語に最適化されたCLIPモデルで、日本語テキストと画像の関連付け学習をサポート
マルチモーダル能力
画像とテキスト入力を同時に処理し、クロスモーダルの特徴抽出とマッチングを実現
事前学習モデル
大規模データセット(CC12M)で事前学習済みで、下流タスクに直接使用可能

モデル能力

画像特徴抽出
日本語テキスト特徴抽出
画像-テキスト類似度計算
クロスモーダル検索

使用事例

画像分類
マルチラベル画像分類
日本語ラベルを使用して画像を分類
各ラベルの確率分布を出力可能
クロスモーダル検索
テキストによる画像検索
日本語テキスト記述を使用して関連画像を検索
画像によるテキスト検索
画像を使用してマッチする日本語テキスト記述を検索
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase