rubert-base-cased-dp-paraphrase-detection开源模型 - 检测俄语文本是否为复述关系

首页

Rubert Base Cased Dp Paraphrase Detection

由 cointegrated 开发

这是一个基于DeepPavlov开发的复述检测器，移植至Transformers格式的模型，用于检测俄语文本是否为复述关系。

文本分类

Transformers

其他#俄语复述检测 #文本相似度 #BERT架构

下载量 39

发布时间 : 3/2/2022

模型简介

该模型能够将俄语文本对分类为复述（类别1）或非复述（类别0），主要用于文本相似度比较和复述检测任务。

模型特点

俄语复述检测

专门针对俄语文本设计的复述检测模型，能够准确识别语义相似的文本对。

基于BERT架构

采用BERT预训练模型作为基础架构，具有强大的语义理解能力。

Transformers兼容

已转换为Hugging Face Transformers格式，便于集成到现代NLP工作流中。

模型能力

文本相似度比较

复述检测

俄语文本分类

使用案例

文本处理

复述识别

识别不同表达方式但含义相同的文本

能准确区分复述和非复述文本对

内容去重

检测重复内容的不同表达形式

帮助减少冗余信息

教育

作业检查

检测学生作业中的复述内容

识别可能的抄袭或简单改写

🚀 转述检测模型

这是一个由 DeepPavlov 开发的转述检测器的版本（文档详情），已移植到 Transformers 格式。所有功劳归于 DeepPavlov 的作者们。该模型在来自 http://paraphraser.ru/ 的数据集上进行了训练，可将文本分类为转述（类别 1）或非转述（类别 0）。

🚀 快速开始

此转述检测模型可方便地对文本是否为转述进行分类。以下是使用该模型的基本步骤。

💻 使用示例

基础用法

import torch
from transformers import AutoModelForSequenceClassification, BertTokenizer
model_name = 'cointegrated/rubert-base-cased-dp-paraphrase-detection'
model = AutoModelForSequenceClassification.from_pretrained(model_name).cuda()
tokenizer = BertTokenizer.from_pretrained(model_name)

def compare_texts(text1, text2):
    batch = tokenizer(text1, text2, return_tensors='pt').to(model.device)
    with torch.inference_mode():
        proba = torch.softmax(model(**batch).logits, -1).cpu().numpy()
    return proba[0] # p(non-paraphrase), p(paraphrase)

print(compare_texts('Сегодня на улице хорошая погода', 'Сегодня на улице отвратительная погода'))
# [0.7056226 0.2943774]
print(compare_texts('Сегодня на улице хорошая погода', 'Отличная погодка сегодня выдалась'))
# [0.16524374 0.8347562 ]

高级用法

在 DeepPavlov 仓库中，分词器使用 max_seq_length=64，而此模型使用 model_max_length=512。因此，在处理长文本时结果可能不准确。使用时需注意文本长度对结果的影响。

# 在处理长文本时，由于模型使用 model_max_length=512，而 DeepPavlov 仓库中分词器使用 max_seq_length=64，结果可能不准确。
import torch
from transformers import AutoModelForSequenceClassification, BertTokenizer
model_name = 'cointegrated/rubert-base-cased-dp-paraphrase-detection'
model = AutoModelForSequenceClassification.from_pretrained(model_name).cuda()
tokenizer = BertTokenizer.from_pretrained(model_name)

def compare_texts(text1, text2):
    batch = tokenizer(text1, text2, return_tensors='pt').to(model.device)
    with torch.inference_mode():
        proba = torch.softmax(model(**batch).logits, -1).cpu().numpy()
    return proba[0] # p(non-paraphrase), p(paraphrase)

# 示例长文本
long_text1 = '这里可以是一段很长的文本内容，用于测试长文本情况下模型的表现。'
long_text2 = '这里同样是一段很长的文本内容，与上一段文本进行对比。'
print(compare_texts(long_text1, long_text2))