ru-en-RoSBERTa开源双语模型 - 支持俄语英语文本分类及检索任务

首页

Ru En RoSBERTa

由 ai-forever 开发

基于RoBERTa架构的双语（俄语-英语）文本处理模型，适用于多种分类和检索任务

文本嵌入

Transformers

支持多种语言开源协议:MIT #俄英双语理解 #多任务文本分类 #高精度语义匹配

下载量 15.95k

发布时间 : 7/29/2024

模型简介

该模型是基于RoBERTa架构的双语（俄语-英语）文本处理模型，在多种文本分类和检索任务上表现良好，支持多标签分类、聚类和重新排序等任务

模型特点

双语支持

同时支持俄语和英语文本处理

多任务适应

在分类、聚类和重新排序等多种任务上表现良好

高效检索

在MIRACL俄语检索任务上表现出色

模型能力

文本分类

多标签分类

文本聚类

信息检索

文本重新排序

使用案例

内容分类

新闻标题分类

对新闻标题进行分类

在HeadlineClassification数据集上达到78%准确率

电影评论情感分析

分析电影评论的情感倾向

在KinopoiskClassification数据集上达到63.27%准确率

信息检索

俄语文档检索

俄语文档的检索和重新排序

在MIRACL俄语检索任务上NDCG@10达到56.912

🚀 ru-en-RoSBERTa

ru-en-RoSBERTa 是一个用于俄语的通用文本嵌入模型。该模型基于 ruRoBERTa，并使用约 400 万对俄语和英语的有监督、合成和无监督数据进行了微调。分词器支持 RoBERTa 分词器中的一些英语标记。

如需了解更多模型详情，请参考我们的文章。

🚀 快速开始

该模型可以直接使用前缀。建议使用 CLS 池化。前缀和池化的选择取决于具体任务。

我们使用以下基本规则来选择前缀：

"search_query: " 和 "search_document: " 前缀用于答案或相关段落检索。
"classification: " 前缀用于对称释义相关任务（如 STS、NLI、Bitext Mining）。
"clustering: " 前缀用于依赖主题特征的任何任务（如主题分类、标题 - 正文检索）。

为了更好地满足您的需求，您可以使用相关的高质量俄语和英语数据集对模型进行微调。

💻 使用示例

基础用法

以下是使用 Transformers 和 SentenceTransformers 库进行文本编码的示例。

Transformers

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel


def pool(hidden_state, mask, pooling_method="cls"):
    if pooling_method == "mean":
        s = torch.sum(hidden_state * mask.unsqueeze(-1).float(), dim=1)
        d = mask.sum(axis=1, keepdim=True).float()
        return s / d
    elif pooling_method == "cls":
        return hidden_state[:, 0]

inputs = [
    # 
    "classification: Он нам и <unk> не нужон ваш Интернет!",
    "clustering: В Ярославской области разрешили работу бань, но без посетителей",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",

    # 
    "classification: What a time to be alive!",
    "clustering: Ярославским баням разрешили работать без посетителей",
    "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.",
]

tokenizer = AutoTokenizer.from_pretrained("ai-forever/ru-en-RoSBERTa")
model = AutoModel.from_pretrained("ai-forever/ru-en-RoSBERTa")

tokenized_inputs = tokenizer(inputs, max_length=512, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    outputs = model(**tokenized_inputs)
    
embeddings = pool(
    outputs.last_hidden_state, 
    tokenized_inputs["attention_mask"],
    pooling_method="cls" # or try "mean"
)

embeddings = F.normalize(embeddings, p=2, dim=1)

sim_scores = embeddings[:3] @ embeddings[3:].T
print(sim_scores.diag().tolist())
# [0.4796873927116394, 0.9409002065658569, 0.7761015892028809]

SentenceTransformers

from sentence_transformers import SentenceTransformer


inputs = [
    # 
    "classification: Он нам и <unk> не нужон ваш Интернет!",
    "clustering: В Ярославской области разрешили работу бань, но без посетителей",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",

    # 
    "classification: What a time to be alive!",
    "clustering: Ярославским баням разрешили работать без посетителей",
    "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.",
]

# loads model with CLS pooling
model = SentenceTransformer("ai-forever/ru-en-RoSBERTa")

# embeddings are normalized by default
embeddings = model.encode(inputs, convert_to_tensor=True)

sim_scores = embeddings[:3] @ embeddings[3:].T
print(sim_scores.diag().tolist())
# [0.47968706488609314, 0.940900444984436, 0.7761018872261047]

高级用法

使用提示（sentence-transformers>=2.4.0）：

from sentence_transformers import SentenceTransformer


# loads model with CLS pooling
model = SentenceTransformer("ai-forever/ru-en-RoSBERTa")

classification = model.encode(["Он нам и <unk> не нужон ваш Интернет!", "What a time to be alive!"], prompt_name="classification")
print(classification[0] @ classification[1].T) # 0.47968706488609314

clustering = model.encode(["В Ярославской области разрешили работу бань, но без посетителей", "Ярославским баням разрешили работать без посетителей"], prompt_name="clustering")
print(clustering[0] @ clustering[1].T) # 0.940900444984436

query_embedding = model.encode("Сколько программистов нужно, чтобы вкрутить лампочку?", prompt_name="search_query")
document_embedding = model.encode("Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.", prompt_name="search_document")
print(query_embedding @ document_embedding.T) # 0.7761018872261047

📚 详细文档

模型评估指标

数据集名称	任务类型	主要指标	指标值
MTEB CEDRClassification (default)	多标签分类	准确率	44.68650371944739
MTEB GeoreviewClassification (default)	分类	准确率	49.697265625
MTEB GeoreviewClusteringP2P (default)	聚类	主得分	65.42249614873316
MTEB HeadlineClassification (default)	分类	准确率	78.0029296875
MTEB InappropriatenessClassification (default)	分类	准确率	61.32324218750001
MTEB KinopoiskClassification (default)	分类	准确率	63.27333333333334
MTEB MIRACLReranking (ru)	重排序	主得分	56.912
MTEB MIRACLRetrieval (ru)	检索	主得分	53.909
MTEB MassiveIntentClassification (ru)	分类	准确率	66.96704774714189
MTEB MassiveScenarioClassification (ru)	分类	准确率	71.79556153328849
MTEB RUParaPhraserSTS (default)	STS	主得分	76.16273410937974
MTEB RiaNewsRetrieval (default)	检索	主得分	78.864
MTEB RuBQReranking (default)	重排序	主得分	70.8676293869892
MTEB RuBQRetrieval (default)	检索	主得分	66.77499999999999
MTEB RuReviewsClassification (default)	分类	准确率	67.958984375
MTEB RuSTSBenchmarkSTS (default)	STS	主得分	78.69157477180703
MTEB RuSciBenchGRNTIClassification (default)	分类	准确率	59.326171875
MTEB RuSciBenchGRNTIClusteringP2P (default)	聚类	主得分	55.46570753380975
MTEB RuSciBenchOECDClassification (default)	分类	准确率	46.328125
MTEB RuSciBenchOECDClusteringP2P (default)	聚类	主得分	47.28635342613908
MTEB STS22 (ru)	STS	主得分	67.06445400504978
MTEB SensitiveTopicsClassification (default)	多标签分类	准确率	33.0712890625
MTEB TERRa (default)	成对分类	主得分	60.78861909325018

📄 许可证

本项目采用 MIT 许可证。

📚 引用

如果您使用了该模型，请引用以下文献：

@misc{snegirev2024russianfocusedembeddersexplorationrumteb,
      title={The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design}, 
      author={Artem Snegirev and Maria Tikhonova and Anna Maksimova and Alena Fenogenova and Alexander Abramov},
      year={2024},
      eprint={2408.12503},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2408.12503}, 
}