M

Mmlw Retrieval E5 Large

Developed by sdadas
MMLWはポーランド語向けのニューラルテキストエンコーダで、情報検索タスク向けに最適化されており、クエリと段落を1024次元ベクトルに変換できます
Downloads 56
Release Time : 10/18/2023

Model Overview

このモデルは多言語知識蒸留と対照損失ファインチューニングを通じて、ポーランド語情報検索タスク専用に設計されており、クエリと段落を高次元ベクトルにエンコードして類似度計算を行えます

Model Features

多言語知識蒸留
英語FlagEmbeddingsを教師モデルとして使用し、6000万のポーランド語-英語テキストペアで知識蒸留トレーニングを実施
対照損失ファインチューニング
ポーランド版MS MARCOデータセットで大規模バッチ対照学習によるファインチューニングを行い、検索性能を最適化
プレフィックス認識エンコーディング
'query:'と'passage:'プレフィックスを追加してクエリと段落エンコーディングを区別し、検索精度を向上

Model Capabilities

テキストベクトル化
意味的類似度計算
情報検索
クロスランゲージ検索

Use Cases

検索エンジン
ポーランド語ドキュメント検索
ユーザークエリに基づいてポーランド語ドキュメントライブラリから最も関連性の高いコンテンツを検索
PIRBベンチマークでNDCG@10値58.30を達成
質問応答システム
ポーランド語FAQマッチング
ユーザーの質問とFAQライブラリを意味的にマッチング
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase