🚀 MMLW-roberta-base
MMLW(必須有更好的消息)是用於波蘭語的神經文本編碼器。這是一個蒸餾模型,可用於生成適用於許多任務的嵌入,如語義相似度、聚類、信息檢索等。該模型也可作為進一步微調的基礎。它能將文本轉換為768維的向量。
該模型使用波蘭語RoBERTa檢查點進行初始化,然後在包含6000萬對波蘭語 - 英語文本的多樣化語料庫上,採用多語言知識蒸餾方法進行訓練。我們使用英語FlagEmbeddings (BGE)作為蒸餾的教師模型。
🚀 快速開始
安裝依賴
你可以使用以下命令安裝sentence-transformers
庫:
pip install sentence-transformers
代碼示例
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-roberta-base")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
注意事項
⚠️ 重要提示
我們的嵌入模型在編碼文本時需要使用特定的前綴和後綴。對於此模型,每個查詢前面都應加上前綴 "zapytanie: "。
✨ 主要特性
- 可用於生成適用於多種任務的嵌入,如語義相似度、聚類、信息檢索等。
- 作為蒸餾模型,可作為進一步微調的基礎。
- 將文本轉換為768維的向量。
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-roberta-base")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
📚 詳細文檔
評估結果
- 該模型在波蘭大規模文本嵌入基準測試(MTEB)中達到了61.05的平均得分。詳細結果請參見MTEB排行榜。
- 該模型在波蘭信息檢索基準測試中達到了53.60的NDCG@10。詳細結果請參見PIRB排行榜。
致謝
該模型在格但斯克工業大學TASK中心倡議提供的A100 GPU集群支持下進行訓練。
引用
@article{dadas2024pirb,
title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
year={2024},
eprint={2402.13350},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本項目採用Apache-2.0許可證。