M

Mmlw Retrieval E5 Small

Developed by sdadas
MMLW(私はより良いニュースを得なければならない)はポーランド語のニューラルテキストエンコーダーで、情報検索タスク向けに最適化されており、クエリと段落を384次元ベクトルに変換します。
Downloads 34
Release Time : 10/18/2023

Model Overview

このモデルはポーランド語のセンテンストランスフォーマーで、主に特徴抽出と文の類似度計算に使用され、特に情報検索タスクに適しています。

Model Features

多言語知識蒸留
6000万件のポーランド語-英語テキストペアを使用して訓練し、英語のFlagEmbeddingsを教師モデルとして知識蒸留を行いました。
対照損失ファインチューニング
ポーランド版MS MARCOトレーニングセットで対照損失によるファインチューニングを実施し、大規模バッチサイズでトレーニング効率を最適化しました。
プレフィックス強化
テキストをエンコードする際に特定のプレフィックスを追加する必要があります(クエリには'query: '、段落には'passage: 'を付加)ことで検索効果を最適化します。

Model Capabilities

テキストエンコーディング
文の類似度計算
情報検索

Use Cases

情報検索
質問応答システム
ユーザークエリと関連する回答段落をマッチングするために使用
意味的に関連する質問応答ペアを効果的に識別可能
ドキュメント検索
大量のドキュメントから関連コンテンツを検索
ポーランド情報検索ベンチマークテストでNDCG@10スコア52.34を達成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase