开源MMLW-Retrieval-Roberta-Large-V2模型 - 优化波兰语信息检索任务

首页

Mmlw Retrieval Roberta Large V2

由 sdadas 开发

MMLW是用于波兰语的神经文本编码器，针对信息检索任务进行了优化，能够将查询和段落转换为1024维向量。

文本嵌入其他#波兰语检索优化 #多语言知识蒸馏 #高维语义编码

下载量 2,091

发布时间 : 3/23/2025

模型简介

该模型基于polish-roberta-large-v2，通过多语言知识蒸馏和对比损失微调，融入了现代基于大语言模型的英语检索器和重排器，提升了效果。

模型特点

多语言知识蒸馏

使用stella_en_1.5B_v5作为教师模型进行知识蒸馏，提升了模型性能。

对比损失微调

使用超过400万个查询的数据集，通过对比损失进行微调，优化了信息检索效果。

高维向量表示

能够将查询和段落转换为1024维向量，适用于信息检索任务。

模型能力

信息检索

语义文本相似度计算

使用案例

信息检索

波兰语文档检索

将用户查询与文档库中的段落进行匹配，返回最相关的文档。

在波兰语信息检索基准测试中实现了60.71的NDCG@10。

语义相似度

波兰语句子相似度计算

计算两个波兰语句子之间的语义相似度。

🚀 MMLW-retrieval-roberta-large-v2

MMLW（必须有更好的消息）是用于波兰语的神经文本编码器。第二个版本基于相同的基础模型（polish - roberta - large - v2），但训练过程融入了现代基于大语言模型的英语检索器和重排器，从而取得了更好的效果。该模型针对信息检索任务进行了优化，能够将查询和段落转换为1024维向量。

🚀 快速开始

模型的开发采用了两步流程：

第一步，使用波兰语RoBERTa检查点对其进行初始化，然后在包含2000万对波兰语 - 英语文本的多样化语料库上，采用多语言知识蒸馏方法进行训练。我们使用stella_en_1.5B_v5作为蒸馏的教师模型。
第二步，使用由超过400万个查询组成的数据集，通过对比损失对模型进行微调。每个查询的正例和负例段落借助BAAI/bge - reranker - v2.5 - gemma2 - lightweight重排器进行选择。

✨ 主要特性

支持信息检索和语义文本相似度任务。
针对信息检索任务进行了优化，可将查询和段落转换为1024维向量。
训练过程融入现代基于大语言模型的英语检索器和重排器，效果更佳。

📦 安装指南

文档未提及安装步骤，此处跳过。

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

model = SentenceTransformer(
    "sdadas/mmlw-retrieval-roberta-large-v2",
    trust_remote_code=True,
    device="cuda",
    model_kwargs={"attn_implementation": "flash_attention_2", "trust_remote_code": True}
)
# Flash-Attention works only in 16-bit mode, so we need to cast the model to float16 or bfloat16
model.bfloat16()

# Retrieval example
query_prefix = "[query]: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    "Trzeba zdrowo się odżywiać i uprawiać sport.",
    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])

# Semantic similarity example
sim_prefix = "[sts]: "
sentences = [
    sim_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    sim_prefix + "Warto jest prowadzić zdrowy tryb życia, uwzględniający aktywność fizyczną i dietę.",
    sim_prefix + "One should eat healthy and engage in sports.",
    sim_prefix + "Zakupy potwierdzasz PINem, który bezpiecznie ustalisz podczas aktywacji."
]
emb = model.encode(sentences, convert_to_tensor=True, show_progress_bar=False)
print(cos_sim(emb, emb))

📚 详细文档

评估结果

该模型在波兰语信息检索基准测试中实现了60.71的NDCG@10。详细结果请参阅PIRB排行榜。

引用

@inproceedings{dadas2024pirb,
  title={PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
  author={Dadas, Slawomir and Pere{\l}kiewicz, Micha{\l} and Po{\'s}wiata, Rafa{\l}},
  booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
  pages={12761--12774},
  year={2024}
}

📄 许可证

该模型的许可证为gemma。

属性	详情
模型类型	用于波兰语的神经文本编码器
训练数据	包含2000万对波兰语 - 英语文本的多样化语料库，以及由超过400万个查询组成的数据集