ru-en-RoSBERTa開源雙語模型 - 支持俄語英語文本分類及檢索任務

首頁

Ru En RoSBERTa

由ai-forever開發

基於RoBERTa架構的雙語（俄語-英語）文本處理模型，適用於多種分類和檢索任務

文本嵌入

Transformers

支持多種語言開源協議:MIT #俄英雙語理解 #多任務文本分類 #高精度語義匹配

下載量 15.95k

發布時間 : 7/29/2024

模型概述

該模型是基於RoBERTa架構的雙語（俄語-英語）文本處理模型，在多種文本分類和檢索任務上表現良好，支持多標籤分類、聚類和重新排序等任務

模型特點

雙語支持

同時支持俄語和英語文本處理

多任務適應

在分類、聚類和重新排序等多種任務上表現良好

高效檢索

在MIRACL俄語檢索任務上表現出色

模型能力

文本分類

多標籤分類

文本聚類

信息檢索

文本重新排序

使用案例

內容分類

新聞標題分類

對新聞標題進行分類

在HeadlineClassification數據集上達到78%準確率

電影評論情感分析

分析電影評論的情感傾向

在KinopoiskClassification數據集上達到63.27%準確率

信息檢索

俄語文檔檢索

俄語文檔的檢索和重新排序

在MIRACL俄語檢索任務上NDCG@10達到56.912

🚀 ru-en-RoSBERTa

ru-en-RoSBERTa 是一個用於俄語的通用文本嵌入模型。該模型基於 ruRoBERTa，並使用約 400 萬對俄語和英語的有監督、合成和無監督數據進行了微調。分詞器支持 RoBERTa 分詞器中的一些英語標記。

如需瞭解更多模型詳情，請參考我們的文章。

🚀 快速開始

該模型可以直接使用前綴。建議使用 CLS 池化。前綴和池化的選擇取決於具體任務。

我們使用以下基本規則來選擇前綴：

"search_query: " 和 "search_document: " 前綴用於答案或相關段落檢索。
"classification: " 前綴用於對稱釋義相關任務（如 STS、NLI、Bitext Mining）。
"clustering: " 前綴用於依賴主題特徵的任何任務（如主題分類、標題 - 正文檢索）。

為了更好地滿足您的需求，您可以使用相關的高質量俄語和英語數據集對模型進行微調。

💻 使用示例

基礎用法

以下是使用 Transformers 和 SentenceTransformers 庫進行文本編碼的示例。

Transformers

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel


def pool(hidden_state, mask, pooling_method="cls"):
    if pooling_method == "mean":
        s = torch.sum(hidden_state * mask.unsqueeze(-1).float(), dim=1)
        d = mask.sum(axis=1, keepdim=True).float()
        return s / d
    elif pooling_method == "cls":
        return hidden_state[:, 0]

inputs = [
    # 
    "classification: Он нам и <unk> не нужон ваш Интернет!",
    "clustering: В Ярославской области разрешили работу бань, но без посетителей",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",

    # 
    "classification: What a time to be alive!",
    "clustering: Ярославским баням разрешили работать без посетителей",
    "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.",
]

tokenizer = AutoTokenizer.from_pretrained("ai-forever/ru-en-RoSBERTa")
model = AutoModel.from_pretrained("ai-forever/ru-en-RoSBERTa")

tokenized_inputs = tokenizer(inputs, max_length=512, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    outputs = model(**tokenized_inputs)
    
embeddings = pool(
    outputs.last_hidden_state, 
    tokenized_inputs["attention_mask"],
    pooling_method="cls" # or try "mean"
)

embeddings = F.normalize(embeddings, p=2, dim=1)

sim_scores = embeddings[:3] @ embeddings[3:].T
print(sim_scores.diag().tolist())
# [0.4796873927116394, 0.9409002065658569, 0.7761015892028809]

SentenceTransformers

from sentence_transformers import SentenceTransformer


inputs = [
    # 
    "classification: Он нам и <unk> не нужон ваш Интернет!",
    "clustering: В Ярославской области разрешили работу бань, но без посетителей",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",

    # 
    "classification: What a time to be alive!",
    "clustering: Ярославским баням разрешили работать без посетителей",
    "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.",
]

# loads model with CLS pooling
model = SentenceTransformer("ai-forever/ru-en-RoSBERTa")

# embeddings are normalized by default
embeddings = model.encode(inputs, convert_to_tensor=True)

sim_scores = embeddings[:3] @ embeddings[3:].T
print(sim_scores.diag().tolist())
# [0.47968706488609314, 0.940900444984436, 0.7761018872261047]

高級用法

使用提示（sentence-transformers>=2.4.0）：

from sentence_transformers import SentenceTransformer


# loads model with CLS pooling
model = SentenceTransformer("ai-forever/ru-en-RoSBERTa")

classification = model.encode(["Он нам и <unk> не нужон ваш Интернет!", "What a time to be alive!"], prompt_name="classification")
print(classification[0] @ classification[1].T) # 0.47968706488609314

clustering = model.encode(["В Ярославской области разрешили работу бань, но без посетителей", "Ярославским баням разрешили работать без посетителей"], prompt_name="clustering")
print(clustering[0] @ clustering[1].T) # 0.940900444984436

query_embedding = model.encode("Сколько программистов нужно, чтобы вкрутить лампочку?", prompt_name="search_query")
document_embedding = model.encode("Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.", prompt_name="search_document")
print(query_embedding @ document_embedding.T) # 0.7761018872261047

📚 詳細文檔

模型評估指標

數據集名稱	任務類型	主要指標	指標值
MTEB CEDRClassification (default)	多標籤分類	準確率	44.68650371944739
MTEB GeoreviewClassification (default)	分類	準確率	49.697265625
MTEB GeoreviewClusteringP2P (default)	聚類	主得分	65.42249614873316
MTEB HeadlineClassification (default)	分類	準確率	78.0029296875
MTEB InappropriatenessClassification (default)	分類	準確率	61.32324218750001
MTEB KinopoiskClassification (default)	分類	準確率	63.27333333333334
MTEB MIRACLReranking (ru)	重排序	主得分	56.912
MTEB MIRACLRetrieval (ru)	檢索	主得分	53.909
MTEB MassiveIntentClassification (ru)	分類	準確率	66.96704774714189
MTEB MassiveScenarioClassification (ru)	分類	準確率	71.79556153328849
MTEB RUParaPhraserSTS (default)	STS	主得分	76.16273410937974
MTEB RiaNewsRetrieval (default)	檢索	主得分	78.864
MTEB RuBQReranking (default)	重排序	主得分	70.8676293869892
MTEB RuBQRetrieval (default)	檢索	主得分	66.77499999999999
MTEB RuReviewsClassification (default)	分類	準確率	67.958984375
MTEB RuSTSBenchmarkSTS (default)	STS	主得分	78.69157477180703
MTEB RuSciBenchGRNTIClassification (default)	分類	準確率	59.326171875
MTEB RuSciBenchGRNTIClusteringP2P (default)	聚類	主得分	55.46570753380975
MTEB RuSciBenchOECDClassification (default)	分類	準確率	46.328125
MTEB RuSciBenchOECDClusteringP2P (default)	聚類	主得分	47.28635342613908
MTEB STS22 (ru)	STS	主得分	67.06445400504978
MTEB SensitiveTopicsClassification (default)	多標籤分類	準確率	33.0712890625
MTEB TERRa (default)	成對分類	主得分	60.78861909325018

📄 許可證

本項目採用 MIT 許可證。

📚 引用

如果您使用了該模型，請引用以下文獻：

@misc{snegirev2024russianfocusedembeddersexplorationrumteb,
      title={The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design}, 
      author={Artem Snegirev and Maria Tikhonova and Anna Maksimova and Alena Fenogenova and Alexander Abramov},
      year={2024},
      eprint={2408.12503},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2408.12503}, 
}