mmlw - roberta - large开源波兰语模型 - 免费实现句子相似度计算与特征提取

首页

Mmlw Roberta Large

由 sdadas 开发

基于RoBERTa架构的大规模波兰语句子转换模型，专注于句子相似度计算和特征提取任务。

文本嵌入

Transformers

其他开源协议:Apache-2.0 #波兰语句子相似度 #多任务评估 #高精度语义匹配

下载量 5,007

发布时间 : 11/17/2023

模型简介

该模型是基于RoBERTa架构的波兰语预训练模型，主要用于句子相似度计算、特征提取和相关自然语言处理任务。在MTEB波兰语基准测试中表现出色。

模型特点

波兰语优化

专门针对波兰语进行优化，在波兰语NLP任务中表现优异

多任务能力

支持句子相似度计算、聚类、分类和检索等多种NLP任务

MTEB基准测试验证

在多个MTEB波兰语基准测试中取得良好成绩

模型能力

句子相似度计算

文本特征提取

文本聚类

文本分类

信息检索

使用案例

文本分析

评论分类

对波兰语产品评论进行情感或主题分类

在AllegroReviews数据集上达到47.5%准确率

语义相似度判断

判断两个波兰语句子的语义相似度

在CDSC-R数据集上达到92.5的Spearman相关系数

信息检索

问答系统

构建波兰语问答系统的语义检索组件

在HotpotQA-PL数据集上MAP@10达到62.6

文档检索

基于语义的波兰语文档检索

在DBPedia-PL数据集上MRR@10达到73.6

🚀 MMLW-roberta-large

MMLW（必须有更好的消息）是用于波兰语的神经文本编码器。这是一个蒸馏模型，可用于生成适用于许多任务的嵌入，如语义相似度、聚类、信息检索等。该模型还可以作为进一步微调的基础。它将文本转换为 1024 维向量。该模型使用波兰语 RoBERTa 检查点进行初始化，然后使用多语言知识蒸馏方法在包含 6000 万对波兰语 - 英语文本的多样化语料库上进行训练。我们使用英语 FlagEmbeddings (BGE)作为蒸馏的教师模型。

🚀 快速开始

安装依赖

你可以使用以下命令安装 sentence-transformers 库：

pip install sentence-transformers

代码示例

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-roberta-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

重要提示

⚠️ 重要提示

我们的嵌入模型在编码文本时需要使用特定的前缀和后缀。对于此模型，每个查询都应在前面加上前缀 "zapytanie: "。

✨ 主要特性

多任务适用性：可用于语义相似度、聚类、信息检索等多种任务。
可微调性：可以作为基础模型进行进一步的微调。
高维向量转换：将文本转换为 1024 维向量。

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-roberta-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

📚 详细文档

评估结果

该模型在波兰大规模文本嵌入基准测试（MTEB）上的平均得分达到了 63.23。详细结果请参阅 MTEB 排行榜。
该模型在波兰信息检索基准测试上的 NDCG@10 达到了 55.95。详细结果请参阅 PIRB 排行榜。

致谢

此模型在格但斯克工业大学的 A100 GPU 集群支持下进行训练，该支持是 TASK 中心倡议的一部分。

引用

@article{dadas2024pirb,
  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods}, 
  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
  year={2024},
  eprint={2402.13350},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}