mmlw - retrieval - roberta - large - v2開源模型 - 優化波蘭語信息檢索，實現查詢段落向量轉換

首頁

Mmlw Retrieval Roberta Large V2

由sdadas開發

MMLW是用於波蘭語的神經文本編碼器，針對信息檢索任務進行了優化，能夠將查詢和段落轉換為1024維向量。

文本嵌入其他#波蘭語檢索優化 #多語言知識蒸餾 #高維語義編碼

下載量 2,091

發布時間 : 3/23/2025

模型概述

該模型基於polish-roberta-large-v2，通過多語言知識蒸餾和對比損失微調，融入了現代基於大語言模型的英語檢索器和重排器，提升了效果。

模型特點

多語言知識蒸餾

使用stella_en_1.5B_v5作為教師模型進行知識蒸餾，提升了模型性能。

對比損失微調

使用超過400萬個查詢的數據集，通過對比損失進行微調，優化了信息檢索效果。

高維向量表示

能夠將查詢和段落轉換為1024維向量，適用於信息檢索任務。

模型能力

信息檢索

語義文本相似度計算

使用案例

信息檢索

波蘭語文檔檢索

將用戶查詢與文檔庫中的段落進行匹配，返回最相關的文檔。

在波蘭語信息檢索基準測試中實現了60.71的NDCG@10。

語義相似度

波蘭語句子相似度計算

計算兩個波蘭語句子之間的語義相似度。

🚀 MMLW-retrieval-roberta-large-v2

MMLW（必須有更好的消息）是用於波蘭語的神經文本編碼器。第二個版本基於相同的基礎模型（polish - roberta - large - v2），但訓練過程融入了現代基於大語言模型的英語檢索器和重排器，從而取得了更好的效果。該模型針對信息檢索任務進行了優化，能夠將查詢和段落轉換為1024維向量。

🚀 快速開始

模型的開發採用了兩步流程：

第一步，使用波蘭語RoBERTa檢查點對其進行初始化，然後在包含2000萬對波蘭語 - 英語文本的多樣化語料庫上，採用多語言知識蒸餾方法進行訓練。我們使用stella_en_1.5B_v5作為蒸餾的教師模型。
第二步，使用由超過400萬個查詢組成的數據集，通過對比損失對模型進行微調。每個查詢的正例和負例段落藉助BAAI/bge - reranker - v2.5 - gemma2 - lightweight重排器進行選擇。

✨ 主要特性

支持信息檢索和語義文本相似度任務。
針對信息檢索任務進行了優化，可將查詢和段落轉換為1024維向量。
訓練過程融入現代基於大語言模型的英語檢索器和重排器，效果更佳。

📦 安裝指南

文檔未提及安裝步驟，此處跳過。

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

model = SentenceTransformer(
    "sdadas/mmlw-retrieval-roberta-large-v2",
    trust_remote_code=True,
    device="cuda",
    model_kwargs={"attn_implementation": "flash_attention_2", "trust_remote_code": True}
)
# Flash-Attention works only in 16-bit mode, so we need to cast the model to float16 or bfloat16
model.bfloat16()

# Retrieval example
query_prefix = "[query]: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    "Trzeba zdrowo się odżywiać i uprawiać sport.",
    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])

# Semantic similarity example
sim_prefix = "[sts]: "
sentences = [
    sim_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    sim_prefix + "Warto jest prowadzić zdrowy tryb życia, uwzględniający aktywność fizyczną i dietę.",
    sim_prefix + "One should eat healthy and engage in sports.",
    sim_prefix + "Zakupy potwierdzasz PINem, który bezpiecznie ustalisz podczas aktywacji."
]
emb = model.encode(sentences, convert_to_tensor=True, show_progress_bar=False)
print(cos_sim(emb, emb))

📚 詳細文檔

評估結果

該模型在波蘭語信息檢索基準測試中實現了60.71的NDCG@10。詳細結果請參閱PIRB排行榜。

引用

@inproceedings{dadas2024pirb,
  title={PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
  author={Dadas, Slawomir and Pere{\l}kiewicz, Micha{\l} and Po{\'s}wiata, Rafa{\l}},
  booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
  pages={12761--12774},
  year={2024}
}

📄 許可證

該模型的許可證為gemma。

屬性	詳情
模型類型	用於波蘭語的神經文本編碼器
訓練數據	包含2000萬對波蘭語 - 英語文本的多樣化語料庫，以及由超過400萬個查詢組成的數據集