mmlw - retrieval - e5 - largeオープンソースニューラルテキストエンコーダ - ポーランド語の情報検索を最適化、無料で利用可能！

ホーム

Mmlw Retrieval E5 Large

sdadasによって開発

MMLWはポーランド語向けのニューラルテキストエンコーダで、情報検索タスク向けに最適化されており、クエリと段落を1024次元ベクトルに変換できます

テキスト埋め込み

Transformers

その他オープンソースライセンス:Apache-2.0 #ポーランド語検索 #密ベクトルエンコーディング #対照学習最適化

ダウンロード数 56

リリース時間 : 10/18/2023

モデル概要

このモデルは多言語知識蒸留と対照損失ファインチューニングを通じて、ポーランド語情報検索タスク専用に設計されており、クエリと段落を高次元ベクトルにエンコードして類似度計算を行えます

モデル特徴

多言語知識蒸留

英語FlagEmbeddingsを教師モデルとして使用し、6000万のポーランド語-英語テキストペアで知識蒸留トレーニングを実施

対照損失ファインチューニング

ポーランド版MS MARCOデータセットで大規模バッチ対照学習によるファインチューニングを行い、検索性能を最適化

プレフィックス認識エンコーディング

'query:'と'passage:'プレフィックスを追加してクエリと段落エンコーディングを区別し、検索精度を向上

モデル能力

テキストベクトル化

意味的類似度計算

情報検索

クロスランゲージ検索

使用事例

検索エンジン

ポーランド語ドキュメント検索

ユーザークエリに基づいてポーランド語ドキュメントライブラリから最も関連性の高いコンテンツを検索

PIRBベンチマークでNDCG@10値58.30を達成

質問応答システム

ポーランド語FAQマッチング

ユーザーの質問とFAQライブラリを意味的にマッチング

🚀 MMLW-retrieval-e5-large

MMLW (muszę mieć lepszą wiadomość) はポーランド語用のニューラルテキストエンコーダーです。このモデルは情報検索タスクに最適化されており、クエリとパッセージを1024次元のベクトルに変換することができます。

🚀 クイックスタート

このセクションでは、MMLW-retrieval-e5-largeモデルの概要と使用方法について説明します。

✨ 主な機能

ポーランド語用のニューラルテキストエンコーダーで、情報検索タスクに最適化されています。
クエリとパッセージを1024次元のベクトルに変換することができます。

🔧 技術詳細

このモデルは、以下の2段階の手順で開発されました。

最初のステップでは、多言語E5チェックポイントで初期化し、その後、6000万件のポーランド語 - 英語のテキストペアからなる多様なコーパスで多言語知識蒸留法を用いて学習させました。蒸留の教師モデルとして、英語FlagEmbeddings (BGE)を利用しました。
2番目のステップでは、得られたモデルをポーランド語MS MARCOのトレーニング分割データで対照損失を用いて微調整しました。対照学習の効率を向上させるために、小規模モデルでは1152、ベースモデルでは768、大規模モデルでは288という大きなバッチサイズを使用しました。微調整は12台のA100 GPUクラスターで行われました。

⚠️ 重要提示

2023 - 12 - 26: モデルを新しいバージョンに更新し、結果を改善しました。以前のバージョンは v1 タグを使用してダウンロードできます: AutoModel.from_pretrained("sdadas/mmlw-retrieval-e5-large", revision="v1")

💻 使用例

基本的な使用法

# Our dense retrievers require the use of specific prefixes and suffixes when encoding texts. For this model,  queries should be prefixed with **"query: "** and passages with **"passage: "**
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-e5-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

📚 ドキュメント

評価結果

このモデルは、ポーランド語情報検索ベンチマークで NDCG@10 が 58.30 を達成しています。詳細な結果については、PIRB Leaderboard を参照してください。

謝辞

このモデルは、グダニスク工科大学がTASKセンターイニシアチブの一環として提供するA100 GPUクラスターのサポートを受けて学習されました。

引用

@article{dadas2024pirb,
  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods}, 
  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
  year={2024},
  eprint={2402.13350},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}