L

Llm Jp Clip Vit Large Patch14

llm-jpによって開発
OpenCLIPフレームワークでトレーニングされた日本語CLIPモデルで、14.5億の日本語画像テキストペアデータセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクをサポートします
ダウンロード数 254
リリース時間 : 12/27/2024

モデル概要

これは日本語の視覚言語モデルで、画像と日本語テキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類とクロスモーダル検索機能を実現します

モデル特徴

大規模日本語トレーニングデータ
15億の日本語画像テキストペアデータセットを使用し、高品質な機械翻訳により取得
高性能視覚言語理解
複数のベンチマークテストで優れたパフォーマンスを発揮し、特に日本文化関連のタスクで顕著
ゼロショット分類能力
特定のタスクの微調整なしで画像分類タスクを実行可能

モデル能力

ゼロショット画像分類
画像テキスト類似度計算
クロスモーダル検索
画像意味理解

使用事例

コンテンツモデレーション
違反コンテンツ検出
テキスト記述を通じて画像内の違反コンテンツを検出
電子商取引
商品検索
自然言語記述で関連商品画像を検索
メディア分析
画像ラベリング
画像に自動的に日本語説明ラベルを生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase