C

Clip ViT B 32 Multilingual V1 ONNX

canavarによって開発
OpenAI CLIP-ViT-B32モデルの多言語ONNXバージョン、50+言語のテキストと画像を同一ベクトル空間に埋め込むことをサポート
ダウンロード数 86
リリース時間 : 11/22/2023

モデル概要

このモデルはテキスト(50以上の言語をサポート)と画像を共通の密ベクトル空間にマッピングし、クロスモーダル類似度計算を実現、画像検索や多言語ゼロショット画像分類タスクに適しています。

モデル特徴

多言語アラインメント
知識蒸留により50+言語のテキスト埋め込みとCLIP画像埋め込みを同一ベクトル空間にアラインメント
クロスモーダル検索
テキストから画像、画像からテキストへの双方向類似度計算をサポート
ゼロショット分類
テキストラベルで直接分類カテゴリを定義し、微調整なしで画像分類が可能
ONNXフォーマット
モデルはONNXフォーマットに変換済み、クロスプラットフォーム展開が容易

モデル能力

多言語テキスト埋め込み
画像特徴抽出
クロスモーダル類似度計算
ゼロショット画像分類
多言語画像検索

使用事例

画像検索
多言語画像検索
サポートされている任意の言語のテキストクエリを使用して関連画像を検索
異なる言語で記述された画像を正しくマッチングできる例を示す
インテリジェント分類
ゼロショット画像分類
テキストラベルで直接分類カテゴリを定義、トレーニングデータ不要
動的に分類カテゴリを追加/変更可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase