J

Japanese Clip Vit B 32 Roberta Base

recruit-jpによって開発
日本語版CLIPモデルで、日本語テキストと画像を同じ埋め込み空間にマッピングでき、ゼロショット画像分類、テキスト-画像検索などのタスクに適しています。
ダウンロード数 384
リリース時間 : 12/20/2023

モデル概要

このモデルは日本語版CLIP(コントラスティブ言語-画像事前学習モデル)で、ViT-B/32画像エンコーダーとRoberta Baseテキストエンコーダーに基づき、日本語に最適化されています。

モデル特徴

日本語最適化
日本語テキストと画像に特化して最適化されており、日本語タスクで汎用多言語CLIPモデルよりも優れた性能を発揮します。
双方向モーダル埋め込み
画像とテキストを同一の埋め込み空間にマッピングでき、クロスモーダル検索と比較を実現します。
ゼロショット学習
特定タスクの訓練なしで画像分類や検索タスクを実行できます。

モデル能力

ゼロショット画像分類
テキスト-画像検索
画像特徴抽出
テキスト特徴抽出
クロスモーダル類似度計算

使用事例

電子商取引
商品画像検索
日本語テキスト記述で関連商品画像を検索
検索精度とユーザー体験の向上
コンテンツ管理
画像自動タグ付け
画像に自動的に日本語タグを生成
手動タグ付けコストの削減
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase