mmlw - e5 - large开源特征提取模型 - 免费支持波兰语句子相似度任务

首页

Mmlw E5 Large

由 sdadas 开发

mmlw-e5-large 是一个基于句子转换器的特征提取模型，专注于句子相似度任务，支持波兰语。

文本嵌入

Transformers

其他开源协议:Apache-2.0 #波兰语句子相似度 #多任务嵌入模型 #高精度语义匹配

下载量 50

发布时间 : 11/17/2023

模型简介

该模型主要用于句子相似度计算和特征提取，适用于多种自然语言处理任务，如聚类、分类和检索。

模型特点

多任务支持

支持多种任务，包括聚类、分类、检索和句子相似度计算。

高性能

在多个波兰语数据集上表现出色，特别是在句子相似度和检索任务中。

波兰语优化

专门针对波兰语进行了优化，适用于波兰语的自然语言处理任务。

模型能力

句子相似度计算

特征提取

文本聚类

文本分类

信息检索

使用案例

文本分类

情感分析

用于对波兰语文本进行情感分类。

在 MTEB AllegroReviews 数据集上准确率为 37.68%。

意图识别

用于识别用户输入的意图。

在 MTEB MassiveIntentClassification 数据集上准确率为 72.01%。

信息检索

文档检索

用于从大量文档中检索相关信息。

在 MTEB DBPedia-PL 数据集上 map@100 为 26.43%。

问答系统

用于构建问答系统，检索相关答案。

在 MTEB NQ-PL 数据集上 map@100 为 41.04%。

句子相似度

语义相似度计算

用于计算两个句子的语义相似度。

在 MTEB CDSC-R 数据集上 cos_sim_pearson 为 93.74%。

🚀 MMLW-e5-large

MMLW（必须有更好的消息）是用于波兰语的神经文本编码器。这是一个蒸馏模型，可用于生成适用于许多任务的嵌入向量，如语义相似度、聚类、信息检索等。该模型也可作为进一步微调的基础。它能将文本转换为 1024 维的向量。该模型使用多语言 E5 检查点进行初始化，然后在包含 6000 万对波兰语 - 英语文本的多样化语料库上，采用多语言知识蒸馏方法进行训练。我们使用英语 FlagEmbeddings (BGE) 作为蒸馏的教师模型。

🚀 快速开始

安装

本项目使用 sentence-transformers 库，你可以使用以下命令进行安装：

pip install sentence-transformers

使用

⚠️ 重要提示 本嵌入模型在对文本进行编码时需要使用特定的前缀和后缀。对于此模型，查询应加上 "query: " 前缀，段落应加上 "passage: " 前缀。

💡 使用建议 在使用模型时，确保输入的文本添加了正确的前缀，以获得准确的结果。

以下是使用该模型的示例代码：

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-e5-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

✨ 主要特性

多任务适用性：可用于语义相似度、聚类、信息检索等多种任务。
可微调：可作为进一步微调的基础。
高维向量转换：能将文本转换为 1024 维的向量。

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-e5-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

📚 详细文档

评估结果

该模型在波兰大规模文本嵌入基准测试（MTEB）中取得了 61.17 的平均得分。详细结果请参阅 MTEB 排行榜。
该模型在波兰信息检索基准测试中取得了 56.09 的 NDCG@10 得分。详细结果请参阅 PIRB 排行榜。

致谢

该模型的训练得到了格但斯克工业大学在 TASK 中心倡议下提供的 A100 GPU 集群的支持。

引用

@article{dadas2024pirb,
  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods}, 
  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
  year={2024},
  eprint={2402.13350},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}