J

Jina Clip V2

由jinaai開發
Jina CLIP v2 是一個通用的多語言多模態嵌入模型,適用於文本和圖像,支持89種語言,具有更高的圖像分辨率和嵌套表示能力。
下載量 47.56k
發布時間 : 10/8/2024

模型概述

Jina CLIP v2 是一個多語言多模態嵌入模型,結合了文本編碼器 Jina-XLM-RoBERTa 和視覺編碼器 EVA02-L14,支持文本和圖像的對齊表示,適用於跨模態搜索和理解。

模型特點

多語言支持
支持89種語言的多語言-圖像檢索,性能比同類模型提升高達4%。
高圖像分辨率
支持512x512的輸入圖像分辨率,相比前代模型的224x224有顯著提升,能更好地處理細節圖像。
嵌套表示
允許將輸出維度從1024截斷至64,減少存儲和處理開銷,同時保持強大性能。
性能提升
在文本-圖像和文本-文本檢索任務中比前代模型提升3%的性能。

模型能力

文本嵌入
圖像嵌入
跨模態檢索
多語言理解
特徵提取
句子相似度計算

使用案例

信息檢索
跨模態搜索
使用文本查詢搜索相關圖像,或使用圖像搜索相關文本描述。
多語言圖像檢索
使用不同語言的文本查詢檢索相關圖像。
內容理解
多模態內容分析
分析圖像和文本內容之間的關係,用於內容推薦或分類。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase