L

Llm Jp Clip Vit Base Patch16

llm-jpによって開発
日本語CLIPモデル、OpenCLIPフレームワークで訓練され、ゼロショット画像分類タスクをサポート
ダウンロード数 40
リリース時間 : 12/17/2024

モデル概要

これは日本語の視覚言語モデルで、画像と日本語テキストを関連付けることができ、特にゼロショット画像分類タスクに適しています。モデルは14.5億の日本語画像テキストペアデータセットで訓練され、総パラメータ数は248Mです。

モデル特徴

日本語専用
日本語に最適化されたCLIPモデルで、日本語テキスト理解に優れた性能を発揮
大規模訓練データ
14.5億の日本語画像テキストペアデータセットを使用して訓練され、幅広い視覚概念をカバー
ゼロショット能力
特定の訓練なしで新しいカテゴリの画像分類タスクを実行可能

モデル能力

ゼロショット画像分類
画像-テキストマッチング
クロスモーダル検索

使用事例

画像分類
日本語ラベル画像分類
日本語テキストラベルを使用して画像を分類
ImageNet日本語分類タスクで54.2%の精度を達成
クロスモーダル検索
画像検索
日本語テキストクエリを使用して関連画像を検索
XM3600データセットの画像からテキスト検索タスクで73.6%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase