N

Nllb Siglip Mrl Base

visheratinによって開発
NLLBテキストエンコーダーとSigLIP画像エンコーダーを組み合わせた多言語視覚言語モデルで、201言語と複数の埋め込み次元をサポート
ダウンロード数 352
リリース時間 : 2/22/2024

モデル概要

このモデルはNLLBモデルのテキストエンコード能力とSigLIPの画像エンコード能力を組み合わせ、Flores-201の201言語をサポートし、マトリョーシカ表現学習技術を用いて複数次元の埋め込みベクトルを生成します。

モデル特徴

多言語サポート
Flores-201の201言語をサポートし、モデルの多言語能力を拡張
可変埋め込み次元
マトリョーシカ表現学習技術を採用し、32/64/128/256/512次元の埋め込みベクトルを生成可能
高性能検索
XTD10とCrossmodal-3600データセットで新たな多言語画像テキスト検索のSOTAを確立

モデル能力

多言語画像分類
クロスモーダル検索
ゼロショット学習
可変解像度埋め込み

使用事例

多言語コンテンツ理解
多言語画像分類
異なる言語のテキストラベルを使用して画像を分類
クロスモーダル検索
画像-テキスト検索
多言語環境で画像とテキストの相互検索を実施
XTD10とCrossmodal-3600データセットでSOTA性能を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase