M

Mmlw Retrieval E5 Large

sdadasによって開発
MMLWはポーランド語向けのニューラルテキストエンコーダで、情報検索タスク向けに最適化されており、クエリと段落を1024次元ベクトルに変換できます
ダウンロード数 56
リリース時間 : 10/18/2023

モデル概要

このモデルは多言語知識蒸留と対照損失ファインチューニングを通じて、ポーランド語情報検索タスク専用に設計されており、クエリと段落を高次元ベクトルにエンコードして類似度計算を行えます

モデル特徴

多言語知識蒸留
英語FlagEmbeddingsを教師モデルとして使用し、6000万のポーランド語-英語テキストペアで知識蒸留トレーニングを実施
対照損失ファインチューニング
ポーランド版MS MARCOデータセットで大規模バッチ対照学習によるファインチューニングを行い、検索性能を最適化
プレフィックス認識エンコーディング
'query:'と'passage:'プレフィックスを追加してクエリと段落エンコーディングを区別し、検索精度を向上

モデル能力

テキストベクトル化
意味的類似度計算
情報検索
クロスランゲージ検索

使用事例

検索エンジン
ポーランド語ドキュメント検索
ユーザークエリに基づいてポーランド語ドキュメントライブラリから最も関連性の高いコンテンツを検索
PIRBベンチマークでNDCG@10値58.30を達成
質問応答システム
ポーランド語FAQマッチング
ユーザーの質問とFAQライブラリを意味的にマッチング
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase