🚀 MMLW-retrieval-e5-small
MMLW (muszę mieć lepszą wiadomość) はポーランド語用のニューラルテキストエンコーダです。このモデルは情報検索タスクに最適化されており、クエリとパッセージを384次元のベクトルに変換することができます。
✨ 主な機能
- ポーランド語用のニューラルテキストエンコーダで、情報検索タスクに最適化。
- クエリとパッセージを384次元のベクトルに変換可能。
📦 インストール
原READMEにインストール手順に関する具体的な内容がないため、このセクションは省略されます。
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-e5-small")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
注意事項
⚠️ 重要提示
当社の密ベクトル検索器は、テキストをエンコードする際に特定の接頭辞と接尾辞の使用を必要とします。このモデルでは、クエリには "query: " を、パッセージには "passage: " を接頭辞として付ける必要があります。
⚠️ 重要提示
2023年12月26日に、結果を改善した新しいバージョンのモデルに更新しました。以前のバージョンは v1 タグを使用してダウンロードできます: AutoModel.from_pretrained("sdadas/mmlw-retrieval-e5-small", revision="v1")
📚 ドキュメント
評価結果
このモデルは、ポーランド語情報検索ベンチマークで NDCG@10 が 52.34 を達成しています。詳細な結果は PIRB Leaderboard を参照してください。
技術的背景
このモデルは、2段階の手順で開発されました。
- 最初の段階では、多言語E5チェックポイントで初期化され、その後、多様な6000万件のポーランド語 - 英語のテキストペアのコーパスで多言語知識蒸留法を使用して訓練されました。蒸留の教師モデルとして English FlagEmbeddings (BGE) を利用しました。
- 2段階目では、得られたモデルをポーランド語のMS MARCOのトレーニング分割データで対照損失を用いて微調整しました。対照学習の効率を向上させるために、小規模モデルでは1152、ベースモデルでは768、大規模モデルでは288という大きなバッチサイズを使用しました。微調整は12台のA100 GPUのクラスターで行われました。
🔧 技術詳細
このモデルの開発には2段階の手順が用いられています。
- 第一段階では、多言語E5チェックポイントを初期値とし、6000万件の多様なポーランド語 - 英語のテキストペアコーパスを用いて、多言語知識蒸留法により訓練を行いました。蒸留の教師モデルには English FlagEmbeddings (BGE) を使用しました。
- 第二段階では、得られたモデルをポーランド語のMS MARCOのトレーニング分割データで、対照損失を用いて微調整しました。対照学習の効率化のため、小規模モデルではバッチサイズ1152、ベースモデルでは768、大規模モデルでは288を使用し、12台のA100 GPUクラスターで微調整を行いました。
📄 ライセンス
このモデルは apache-2.0
ライセンスの下で提供されています。
謝辞
このモデルは、グダニスク工科大学のTASKセンターイニシアチブによるA100 GPUクラスターのサポートを受けて訓練されました。
引用
@article{dadas2024pirb,
title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
year={2024},
eprint={2402.13350},
archivePrefix={arXiv},
primaryClass={cs.CL}
}