J

Japanese Cloob Vit B 16

rinnaによって開発
rinna株式会社によって訓練された日本語CLOOB(Contrastive Leave-One-Out Boost)モデルで、画像とテキストのクロスモーダル理解に使用されます
ダウンロード数 229.51k
リリース時間 : 4/27/2022

モデル概要

このモデルはCLOOBアーキテクチャに基づいており、日本語テキストと画像の関連性を理解し、画像分類やテキスト-画像マッチングなどのタスクをサポートします

モデル特徴

日本語クロスモーダル理解
日本語に特化して設計されたビジョン-ランゲージモデルで、日本語テキストと画像の関連性を効果的に理解できます
CLOOBアーキテクチャ
Contrastive Leave-One-Out Boost(CLOOB)手法を採用し、クロスモーダル表現学習の効果を向上させます
事前訓練ViTモデル
画像エンコーダはAugReg vit-base-patch16-224モデルで初期化されています

モデル能力

画像特徴抽出
テキスト特徴抽出
画像-テキストマッチング
クロスモーダル検索

使用事例

画像分類
動物画像分類
画像中の動物の種類を識別(例:犬、猫、象)
犬の画像分類の精度が100%を示す例
クロスモーダル検索
テキストから画像検索
日本語のテキスト記述に基づいて関連画像を検索
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase