N

Nllb Siglip Mrl Base

由visheratin開發
結合NLLB文本編碼器和SigLIP圖像編碼器的多語言視覺語言模型,支持201種語言和多種嵌入維度
下載量 352
發布時間 : 2/22/2024

模型概述

該模型結合了NLLB模型的文本編碼能力和SigLIP的圖像編碼能力,支持Flores-201的201種語言,並採用套娃表示學習技術生成多種維度的嵌入向量。

模型特點

多語言支持
支持Flores-201的201種語言,擴展了模型的多語言能力
可變嵌入維度
採用套娃表示學習技術,可生成32/64/128/256/512維度的嵌入向量
高性能檢索
在XTD10和Crossmodal-3600數據集上設立了新的多語言圖像文本檢索SOTA

模型能力

多語言圖像分類
跨模態檢索
零樣本學習
可變分辨率嵌入

使用案例

多語言內容理解
多語言圖像分類
使用不同語言的文本標籤對圖像進行分類
跨模態檢索
圖像-文本檢索
在多語言環境下進行圖像和文本的相互檢索
在XTD10和Crossmodal-3600數據集上達到SOTA性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase