M

Mmlw Retrieval E5 Small

sdadasによって開発
MMLW(私はより良いニュースを得なければならない)はポーランド語のニューラルテキストエンコーダーで、情報検索タスク向けに最適化されており、クエリと段落を384次元ベクトルに変換します。
ダウンロード数 34
リリース時間 : 10/18/2023

モデル概要

このモデルはポーランド語のセンテンストランスフォーマーで、主に特徴抽出と文の類似度計算に使用され、特に情報検索タスクに適しています。

モデル特徴

多言語知識蒸留
6000万件のポーランド語-英語テキストペアを使用して訓練し、英語のFlagEmbeddingsを教師モデルとして知識蒸留を行いました。
対照損失ファインチューニング
ポーランド版MS MARCOトレーニングセットで対照損失によるファインチューニングを実施し、大規模バッチサイズでトレーニング効率を最適化しました。
プレフィックス強化
テキストをエンコードする際に特定のプレフィックスを追加する必要があります(クエリには'query: '、段落には'passage: 'を付加)ことで検索効果を最適化します。

モデル能力

テキストエンコーディング
文の類似度計算
情報検索

使用事例

情報検索
質問応答システム
ユーザークエリと関連する回答段落をマッチングするために使用
意味的に関連する質問応答ペアを効果的に識別可能
ドキュメント検索
大量のドキュメントから関連コンテンツを検索
ポーランド情報検索ベンチマークテストでNDCG@10スコア52.34を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase