J

Jina Clip V2

jinaaiによって開発
Jina CLIP v2 は、テキストと画像に対応した汎用的な多言語マルチモーダル埋め込みモデルで、89言語をサポートし、より高い画像解像度とネスト表現能力を備えています。
ダウンロード数 47.56k
リリース時間 : 10/8/2024

モデル概要

Jina CLIP v2 は、テキストエンコーダー Jina-XLM-RoBERTa と視覚エンコーダー EVA02-L14 を組み合わせた多言語マルチモーダル埋め込みモデルで、テキストと画像のアライメント表現をサポートし、クロスモーダル検索と理解に適しています。

モデル特徴

多言語サポート
89言語の多言語-画像検索をサポートし、類似モデルと比較して最大4%の性能向上を実現。
高画像解像度
512x512の入力画像解像度をサポートし、前世代モデルの224x224から大幅に向上し、詳細な画像処理が可能。
ネスト表現
出力次元を1024から64に切り詰めることが可能で、ストレージと処理のオーバーヘッドを削減しながら強力な性能を維持。
性能向上
テキスト-画像およびテキスト-テキスト検索タスクで前世代モデル比3%の性能向上。

モデル能力

テキスト埋め込み
画像埋め込み
クロスモーダル検索
多言語理解
特徴抽出
文類似度計算

使用事例

情報検索
クロスモーダル検索
テキストクエリを使用して関連画像を検索したり、画像を使用して関連テキスト記述を検索します。
多言語画像検索
異なる言語のテキストクエリを使用して関連画像を検索します。
コンテンツ理解
マルチモーダルコンテンツ分析
画像とテキストコンテンツ間の関係を分析し、コンテンツ推薦や分類に使用します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase