rubert-base-cased-dp-paraphrase-detection開源模型 - 檢測俄語文本是否為複述關係

首頁

Rubert Base Cased Dp Paraphrase Detection

由cointegrated開發

這是一個基於DeepPavlov開發的複述檢測器，移植至Transformers格式的模型，用於檢測俄語文本是否為複述關係。

文本分類

Transformers

其他#俄語複述檢測 #文本相似度 #BERT架構

下載量 39

發布時間 : 3/2/2022

模型概述

該模型能夠將俄語文本對分類為複述（類別1）或非複述（類別0），主要用於文本相似度比較和複述檢測任務。

模型特點

俄語複述檢測

專門針對俄語文本設計的複述檢測模型，能夠準確識別語義相似的文本對。

基於BERT架構

採用BERT預訓練模型作為基礎架構，具有強大的語義理解能力。

Transformers兼容

已轉換為Hugging Face Transformers格式，便於集成到現代NLP工作流中。

模型能力

文本相似度比較

複述檢測

俄語文本分類

使用案例

文本處理

複述識別

識別不同表達方式但含義相同的文本

能準確區分複述和非複述文本對

內容去重

檢測重複內容的不同表達形式

幫助減少冗餘信息

教育

作業檢查

檢測學生作業中的複述內容

識別可能的抄襲或簡單改寫

🚀 轉述檢測模型

這是一個由 DeepPavlov 開發的轉述檢測器的版本（文檔詳情），已移植到 Transformers 格式。所有功勞歸於 DeepPavlov 的作者們。該模型在來自 http://paraphraser.ru/ 的數據集上進行了訓練，可將文本分類為轉述（類別 1）或非轉述（類別 0）。

🚀 快速開始

此轉述檢測模型可方便地對文本是否為轉述進行分類。以下是使用該模型的基本步驟。

💻 使用示例

基礎用法

import torch
from transformers import AutoModelForSequenceClassification, BertTokenizer
model_name = 'cointegrated/rubert-base-cased-dp-paraphrase-detection'
model = AutoModelForSequenceClassification.from_pretrained(model_name).cuda()
tokenizer = BertTokenizer.from_pretrained(model_name)

def compare_texts(text1, text2):
    batch = tokenizer(text1, text2, return_tensors='pt').to(model.device)
    with torch.inference_mode():
        proba = torch.softmax(model(**batch).logits, -1).cpu().numpy()
    return proba[0] # p(non-paraphrase), p(paraphrase)

print(compare_texts('Сегодня на улице хорошая погода', 'Сегодня на улице отвратительная погода'))
# [0.7056226 0.2943774]
print(compare_texts('Сегодня на улице хорошая погода', 'Отличная погодка сегодня выдалась'))
# [0.16524374 0.8347562 ]

高級用法

在 DeepPavlov 倉庫中，分詞器使用 max_seq_length=64，而此模型使用 model_max_length=512。因此，在處理長文本時結果可能不準確。使用時需注意文本長度對結果的影響。

# 在處理長文本時，由於模型使用 model_max_length=512，而 DeepPavlov 倉庫中分詞器使用 max_seq_length=64，結果可能不準確。
import torch
from transformers import AutoModelForSequenceClassification, BertTokenizer
model_name = 'cointegrated/rubert-base-cased-dp-paraphrase-detection'
model = AutoModelForSequenceClassification.from_pretrained(model_name).cuda()
tokenizer = BertTokenizer.from_pretrained(model_name)

def compare_texts(text1, text2):
    batch = tokenizer(text1, text2, return_tensors='pt').to(model.device)
    with torch.inference_mode():
        proba = torch.softmax(model(**batch).logits, -1).cpu().numpy()
    return proba[0] # p(non-paraphrase), p(paraphrase)

# 示例長文本
long_text1 = '這裡可以是一段很長的文本內容，用於測試長文本情況下模型的表現。'
long_text2 = '這裡同樣是一段很長的文本內容，與上一段文本進行對比。'
print(compare_texts(long_text1, long_text2))