mmlw - retrieval - roberta - large - v2オープンソースモデル - ポーランド語の情報検索を最適化し、クエリ段落のベクトル変換を実現する

ホーム

Mmlw Retrieval Roberta Large V2

sdadasによって開発

MMLWはポーランド語用のニューラルテキストエンコーダで、情報検索タスクに最適化されており、クエリと段落を1024次元のベクトルに変換することができます。

テキスト埋め込みその他#ポーランド語検索の最適化 #多言語知識蒸留 #高次元意味エンコーディング

ダウンロード数 2,091

リリース時間 : 3/23/2025

モデル概要

このモデルはpolish - roberta - large - v2に基づいて、多言語知識蒸留と対照損失の微調整を行い、現代の大規模言語モデルベースの英語検索器と再ランキング器を組み込むことで、性能を向上させています。

モデル特徴

多言語知識蒸留

教師モデルとしてstella_en_1.5B_v5を使用して知識蒸留を行い、モデルの性能を向上させました。

対照損失の微調整

400万を超えるクエリのデータセットを使用して、対照損失による微調整を行い、情報検索の効果を最適化しました。

高次元ベクトル表現

クエリと段落を1024次元のベクトルに変換することができ、情報検索タスクに適しています。

モデル能力

情報検索

意味テキスト類似度計算

使用事例

情報検索

ポーランド語文書検索

ユーザーのクエリと文書ライブラリ内の段落をマッチングさせ、最も関連性の高い文書を返します。

ポーランド語情報検索ベンチマークテストでNDCG@10が60.71を達成しました。

意味類似度

ポーランド語文の類似度計算

2つのポーランド語文の間の意味類似度を計算します。

🚀 MMLW-retrieval-roberta-large-v2

MMLW (muszę mieć lepszą wiadomość)は、ポーランド語用のニューラルテキストエンコーダです。第2版は同じ基礎モデル（polish-roberta-large-v2）に基づいていますが、トレーニングプロセスには最新のLLMベースの英語検索器と再ランキング器が組み込まれており、結果が改善されています。このモデルは情報検索タスクに最適化されており、クエリとパッセージを1024次元のベクトルに変換することができます。

✨ 主な機能

ポーランド語用のニューラルテキストエンコーダで、情報検索タスクに最適化。
クエリとパッセージを1024次元のベクトルに変換可能。
トレーニングに最新のLLMベースの英語検索器と再ランキング器を組み込み、結果が改善。

📦 インストール

本READMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

model = SentenceTransformer(
    "sdadas/mmlw-retrieval-roberta-large-v2",
    trust_remote_code=True,
    device="cuda",
    model_kwargs={"attn_implementation": "flash_attention_2", "trust_remote_code": True}
)
# Flash-Attention works only in 16-bit mode, so we need to cast the model to float16 or bfloat16
model.bfloat16()

# Retrieval example
query_prefix = "[query]: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    "Trzeba zdrowo się odżywiać i uprawiać sport.",
    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])

# Semantic similarity example
sim_prefix = "[sts]: "
sentences = [
    sim_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    sim_prefix + "Warto jest prowadzić zdrowy tryb życia, uwzględniający aktywność fizyczną i dietę.",
    sim_prefix + "One should eat healthy and engage in sports.",
    sim_prefix + "Zakupy potwierdzasz PINem, który bezpiecznie ustalisz podczas aktywacji."
]
emb = model.encode(sentences, convert_to_tensor=True, show_progress_bar=False)
print(cos_sim(emb, emb))

📚 ドキュメント

評価結果

このモデルは、ポーランド語情報検索ベンチマークでNDCG@10が60.71を達成しています。詳細な結果については、PIRB Leaderboardを参照してください。

引用

@inproceedings{dadas2024pirb,
  title={PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
  author={Dadas, Slawomir and Pere{\l}kiewicz, Micha{\l} and Po{\'s}wiata, Rafa{\l}},
  booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
  pages={12761--12774},
  year={2024}
}

🔧 技術詳細

このモデルは2段階の手順で開発されました。

最初の段階では、ポーランド語のRoBERTaチェックポイントで初期化され、その後、2000万のポーランド語 - 英語のテキストペアからなる多様なコーパスで多言語知識蒸留法を用いてトレーニングされました。蒸留の教師モデルとしてstella_en_1.5B_v5を利用しました。
2段階目では、400万を超えるクエリからなるデータセットを用いて、対照損失を使ってモデルを微調整しました。各クエリの正と負のパッセージは、BAAI/bge-reranker-v2.5-gemma2-lightweight再ランキング器の助けを借りて選択されました。