ruRoberta-large-paraphrase-v1開源模型 - 免費部署精準判斷俄語句子同義改寫

首頁

Ruroberta Large Paraphrase V1

由s-nlp開發

基於ruRoberta-large訓練的俄語句子相似度分類模型，用於判斷兩個句子是否為同義改寫

文本分類

Transformers

其他#俄語句子相似度 #語義等價性檢測 #文本改寫評估

下載量 942

發布時間 : 7/2/2022

模型概述

該模型用於預測兩個俄語句子的語義等價性，可判斷文本對是同義改寫(1)還是非同義改寫(0)。適用於文本改寫或風格轉換中的內容保留程度評估。

模型特點

多數據集聯合訓練

融合了RuPAWS、ru_paraphraser和去毒數據集，覆蓋多種文本改寫場景

高性能語義匹配

在多個測試集上ROC AUC得分超過0.85，最高達0.906

魯棒性架構

基於強大的ruRoberta-large模型，具備優秀的俄語語義理解能力

模型能力

俄語句子相似度計算

語義等價性判斷

文本改寫內容保留評估

風格轉換效果驗證

使用案例

文本處理

改寫檢測

判斷兩個俄語句子是否為同義改寫

可準確識別語義相同的不同表達方式

內容去毒評估

評估文本去毒處理後是否保留了原意

ROC AUC達0.857

質量評估

機器翻譯評估

評估不同翻譯版本間的語義一致性

🚀 俄語句子語義等價預測跨編碼器模型

本項目是一個跨編碼器模型，旨在預測兩個俄語句子的語義等價性。它能夠將文本對分類為釋義（類別 1）或非釋義（類別 0），其得分可作為釋義或文本風格轉換中內容保留的度量標準。

✨ 主要特性

基於 sberbank-ai/ruRoberta-large 模型進行微調。
可對俄語句子對進行語義等價性分類。
得分可用於評估釋義或文本風格轉換中的內容保留情況。

📦 安裝指南

文檔未提供具體安裝步驟，可參考相關庫的官方文檔進行安裝，如 torch 和 transformers。

💻 使用示例

基礎用法

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained('SkolkovoInstitute/ruRoberta-large-paraphrase-v1')
tokenizer = AutoTokenizer.from_pretrained('SkolkovoInstitute/ruRoberta-large-paraphrase-v1')

def get_similarity(text1, text2):
    """ Predict the probability that two Russian sentences are paraphrases of each other. """
    with torch.inference_mode():
        batch = tokenizer(
            text1, text2, 
            truncation=True, max_length=model.config.max_position_embeddings, return_tensors='pt',
        ).to(model.device)
        proba = torch.softmax(model(**batch).logits, -1)
    return proba[0][1].item()

print(get_similarity('Я тебя люблю', 'Ты мне нравишься'))  # 0.9798
print(get_similarity('Я тебя люблю', 'Я тебя ненавижу'))   # 0.0008

📚 詳細文檔

訓練數據集

該模型在 3 個數據集的組合上進行微調：

RuPAWS：https://github.com/ivkrotova/rupaws_dataset ，基於 Quora 和 QQP；
ru_paraphraser：https://huggingface.co/merionum/ru_paraphraser；
RUSSE - 2022 文本去毒數據集集合手動檢查內容保留的結果 (content_5.tsv)。

任務被定義為二分類問題：兩個句子是否具有相同的含義（1）或不同的含義（0）。

以下表格展示了重複（合併 text1 + text2 和 text2 + text1 對）後的訓練數據集大小：

來源 \ 標籤	0	1
detox	1412	3843
paraphraser	5539	1688
rupaws_qqp	1112	792
rupaws_wiki	3526	2166

訓練超參數

模型使用 Adam 優化器進行訓練，超參數如下：

learning_rate = 1e-5
batch_size = 8
gradient_accumulation_steps = 4
n_epochs = 3
max_grad_norm = 1.0

測試集 ROC AUC 得分

訓練後，模型在測試集上的 ROC AUC 得分如下：

測試集	ROC AUC
detox	0.857112
paraphraser	0.858465
rupaws_qqp	0.859195
rupaws_wiki	0.906121

🔧 技術細節

該模型基於 sberbank-ai/ruRoberta-large 進行微調，通過二分類任務來判斷兩個俄語句子的語義等價性。在訓練過程中，使用了多個數據集，並對訓練數據進行了重複處理以增加數據量。訓練時採用 Adam 優化器，並設置了特定的超參數。訓練完成後，在多個測試集上進行了評估，取得了較好的 ROC AUC 得分。