🚀 MMLW-retrieval-roberta-large
MMLW(必須有更好的消息)是用於波蘭語的神經文本編碼器。該模型針對信息檢索任務進行了優化,能夠將查詢和段落轉換為 1024 維的向量。
🚀 快速開始
MMLW(必須有更好的消息)是用於波蘭語的神經文本編碼器。此模型針對信息檢索任務進行了優化,它可以將查詢和段落轉換為 1024 維向量。
該模型採用兩步流程開發:
- 第一步,使用波蘭語 RoBERTa 檢查點進行初始化,然後在包含 6000 萬對波蘭語 - 英語文本的多樣化語料庫上,採用多語言知識蒸餾方法進行訓練。我們使用英語 FlagEmbeddings (BGE)作為蒸餾的教師模型。
- 第二步,在波蘭語 MS MARCO訓練分割集上,使用對比損失對得到的模型進行微調。為了提高對比訓練的效率,我們使用了較大的批量大小——小型模型為 1152,基礎模型為 768,大型模型為 288。微調在由 12 個 A100 GPU 組成的集群上進行。
⚠️ 重要提示
2023 - 12 - 26:我們已將模型更新到新版本,結果有所改進。你仍然可以使用 v1 標籤下載之前的版本:AutoModel.from_pretrained("sdadas/mmlw-retrieval-roberta-large", revision="v1")
✨ 主要特性
- 專為波蘭語設計的神經文本編碼器。
- 針對信息檢索任務進行優化。
- 能夠將查詢和段落轉換為 1024 維向量。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-roberta-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
📚 詳細文檔
評估結果
該模型在波蘭語信息檢索基準測試中實現了 NDCG@10 為 58.46 的成績。詳細結果請參閱 PIRB 排行榜。
🔧 技術細節
此模型的開發採用了兩步流程:
- 第一步,使用波蘭語 RoBERTa 檢查點進行初始化,然後在包含 6000 萬對波蘭語 - 英語文本的多樣化語料庫上,採用多語言知識蒸餾方法進行訓練。我們使用英語 FlagEmbeddings (BGE)作為蒸餾的教師模型。
- 第二步,在波蘭語 MS MARCO訓練分割集上,使用對比損失對得到的模型進行微調。為了提高對比訓練的效率,我們使用了較大的批量大小——小型模型為 1152,基礎模型為 768,大型模型為 288。微調在由 12 個 A100 GPU 組成的集群上進行。
📄 許可證
本模型採用 apache - 2.0
許可證。
致謝
該模型的訓練得到了格但斯克工業大學在 TASK 中心倡議下提供的 A100 GPU 集群的支持。
引用
@article{dadas2024pirb,
title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
year={2024},
eprint={2402.13350},
archivePrefix={arXiv},
primaryClass={cs.CL}
}