🚀 MMLW-retrieval-roberta-large-v2
MMLW(必須有更好的消息)是用於波蘭語的神經文本編碼器。第二個版本基於相同的基礎模型(polish - roberta - large - v2),但訓練過程融入了現代基於大語言模型的英語檢索器和重排器,從而取得了更好的效果。該模型針對信息檢索任務進行了優化,能夠將查詢和段落轉換為1024維向量。
🚀 快速開始
MMLW(必須有更好的消息)是用於波蘭語的神經文本編碼器。第二個版本基於相同的基礎模型(polish - roberta - large - v2),但訓練過程融入了現代基於大語言模型的英語檢索器和重排器,從而取得了更好的效果。該模型針對信息檢索任務進行了優化,能夠將查詢和段落轉換為1024維向量。
模型的開發採用了兩步流程:
✨ 主要特性
- 支持信息檢索和語義文本相似度任務。
- 針對信息檢索任務進行了優化,可將查詢和段落轉換為1024維向量。
- 訓練過程融入現代基於大語言模型的英語檢索器和重排器,效果更佳。
📦 安裝指南
文檔未提及安裝步驟,此處跳過。
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
model = SentenceTransformer(
"sdadas/mmlw-retrieval-roberta-large-v2",
trust_remote_code=True,
device="cuda",
model_kwargs={"attn_implementation": "flash_attention_2", "trust_remote_code": True}
)
model.bfloat16()
query_prefix = "[query]: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
"Trzeba zdrowo się odżywiać i uprawiać sport.",
"Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
"Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
sim_prefix = "[sts]: "
sentences = [
sim_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
sim_prefix + "Warto jest prowadzić zdrowy tryb życia, uwzględniający aktywność fizyczną i dietę.",
sim_prefix + "One should eat healthy and engage in sports.",
sim_prefix + "Zakupy potwierdzasz PINem, który bezpiecznie ustalisz podczas aktywacji."
]
emb = model.encode(sentences, convert_to_tensor=True, show_progress_bar=False)
print(cos_sim(emb, emb))
📚 詳細文檔
評估結果
該模型在波蘭語信息檢索基準測試中實現了60.71的NDCG@10。詳細結果請參閱PIRB排行榜。
引用
@inproceedings{dadas2024pirb,
title={PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
author={Dadas, Slawomir and Pere{\l}kiewicz, Micha{\l} and Po{\'s}wiata, Rafa{\l}},
booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages={12761--12774},
year={2024}
}
📄 許可證
該模型的許可證為gemma。
屬性 |
詳情 |
模型類型 |
用於波蘭語的神經文本編碼器 |
訓練數據 |
包含2000萬對波蘭語 - 英語文本的多樣化語料庫,以及由超過400萬個查詢組成的數據集 |