ruRoberta-large-paraphrase-v1オープンソースモデル - 無料でデプロイし、ロシア語の文章の同義書き換えを正確に判断

ホーム

Ruroberta Large Paraphrase V1

s-nlpによって開発

ruRoberta-largeで訓練されたロシア語の文類似度分類モデルで、2つの文が同義の書き換えかどうかを判断します

テキスト分類

Transformers

その他#ロシア語文類似度 #意味的等価性検出 #テキスト書き換え評価

ダウンロード数 942

リリース時間 : 7/2/2022

モデル概要

このモデルは2つのロシア語の文の意味的等価性を予測し、テキストペアが同義の書き換え(1)か非同義の書き換え(0)かを判断できます。テキストの書き換えやスタイル変換における内容保持度の評価に適しています。

モデル特徴

複数データセット共同訓練

RuPAWS、ru_paraphraser、解毒データセットを統合し、様々なテキスト書き換えシナリオをカバー

高性能意味マッチング

複数のテストセットでROC AUCスコアが0.85を超え、最高0.906を達成

頑健なアーキテクチャ

強力なruRoberta-largeモデルを基盤とし、優れたロシア語の意味理解能力を備えています

モデル能力

ロシア語の文類似度計算

意味的等価性判断

テキスト書き換え内容保持評価

スタイル変換効果検証

使用事例

テキスト処理

書き換え検出

2つのロシア語の文が同義の書き換えかどうかを判断

意味的に同じ異なる表現を正確に識別可能

内容解毒評価

テキスト解毒処理後も原意が保持されているか評価

ROC AUCが0.857を達成

品質評価

機械翻訳評価

異なる翻訳バージョン間の意味的一貫性を評価

🚀 クイックスタート

このモデルは、2つのロシア語の文章の意味的な同等性を予測するために学習されたクロスエンコーダモデルです。文章のペアをパラフレーズ（クラス1）または非パラフレーズ（クラス0）として分類します。そのスコアは、パラフレーズや文章のスタイル変換における内容の保存の指標として使用できます。

✨ 主な機能

ロシア語の文章ペアのパラフレーズ分類が可能です。
パラフレーズや文章のスタイル変換における内容保存の指標としてスコアを提供します。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers torch

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained('SkolkovoInstitute/ruRoberta-large-paraphrase-v1')
tokenizer = AutoTokenizer.from_pretrained('SkolkovoInstitute/ruRoberta-large-paraphrase-v1')

def get_similarity(text1, text2):
    """ Predict the probability that two Russian sentences are paraphrases of each other. """
    with torch.inference_mode():
        batch = tokenizer(
            text1, text2, 
            truncation=True, max_length=model.config.max_position_embeddings, return_tensors='pt',
        ).to(model.device)
        proba = torch.softmax(model(**batch).logits, -1)
    return proba[0][1].item()

print(get_similarity('Я тебя люблю', 'Ты мне нравишься'))  # 0.9798
print(get_similarity('Я тебя люблю', 'Я тебя ненавижу'))   # 0.0008

📚 ドキュメント

モデルの詳細

このモデルは、sberbank-ai/ruRoberta-largeモデルを3つのデータセットの統合でファインチューニングしたものです。

RuPAWS: https://github.com/ivkrotova/rupaws_dataset （QuoraとQQPをベースに作成）
ru_paraphraser: https://huggingface.co/merionum/ru_paraphraser
RUSSE-2022の文章の解毒データセットコレクション（content_5.tsv）の内容保存の手動チェック結果

タスクは、2つの文章が同じ意味を持つか（1）、異なる意味を持つか（0）の二値分類として定式化されました。

学習データセットのサイズ

以下の表は、データセットの複製（text1 + text2とtext2 + text1のペアの結合）後の学習データセットのサイズを示しています。

ソース \ ラベル	0	1
detox	1412	3843
paraphraser	5539	1688
rupaws_qqp	1112	792
rupaws_wiki	3526	2166

学習ハイパーパラメータ

モデルはAdamオプティマイザを使用し、以下のハイパーパラメータで学習されました。

learning_rate = 1e-5
batch_size = 8
gradient_accumulation_steps = 4
n_epochs = 3
max_grad_norm = 1.0

テストセットでのROC AUCスコア

学習後のモデルは、以下のテストセットで次のROC AUCスコアを記録しました。

セット	ROC AUC
detox	0.857112
paraphraser	0.858465
rupaws_qqp	0.859195
rupaws_wiki	0.906121

🔧 技術詳細

このモデルは、ロシア語の文章のパラフレーズ分類を目的としたクロスエンコーダモデルです。sberbank-ai/ruRoberta-largeモデルをベースに、3つのデータセットを統合してファインチューニングを行いました。学習は二値分類タスクとして行われ、文章ペアが同じ意味を持つかどうかを予測します。学習にはAdamオプティマイザを使用し、特定のハイパーパラメータを設定しています。学習後のモデルは、複数のテストセットで良好なROC AUCスコアを達成しています。