rubertconv_toxic_editor開源文本淨化標記模型 - 支持保留、替換等四種處理類型

首頁

Rubertconv Toxic Editor

由IlyaGusev開發

基於rubert-base-cased-conversational的文本淨化標記模型，支持四種處理類型：保留、替換、刪除和插入標記。

文本分類

Transformers

其他開源協議:Apache-2.0 #俄語文本淨化 #毒性標記分類 #掩碼替換處理

下載量 79

發布時間 : 3/2/2022

模型概述

該模型用於文本淨化處理，能夠識別並處理有毒或不當內容，支持四種不同的處理方式，需配合掩碼填充器使用。

模型特點

四種處理類型

支持保留、替換、刪除和插入四種處理方式，靈活應對不同淨化需求。

掩碼填充支持

需配合掩碼填充器使用，可實現對有毒內容的智能替換。

俄語優化

基於俄語對話優化的rubert模型，特別適合俄語文本處理。

模型能力

文本毒性標記

文本淨化處理

俄語文本分析

使用案例

內容審核

社交媒體評論淨化

自動識別並處理社交媒體中的不當評論

文本預處理

對話系統輸入淨化

在對話系統處理前淨化用戶輸入

🚀 RuBERTConv毒性編輯器

本項目基於rubert-base-cased-conversational構建了用於文本去毒的標籤模型。它能對文本進行分類標記，配合掩碼填充器使用，可有效實現文本的去毒處理。

🚀 快速開始

代碼使用示例

你可以通過以下代碼在Colab中使用該模型，點擊此處打開Colab示例。

import torch
from transformers import AutoTokenizer, pipeline

tagger_model_name = "IlyaGusev/rubertconv_toxic_editor"

device = "cuda" if torch.cuda.is_available() else "cpu"
device_num = 0 if device == "cuda" else -1
tagger_pipe = pipeline(
    "token-classification",
    model=tagger_model_name,
    tokenizer=tagger_model_name,
    framework="pt",
    device=device_num,
    aggregation_strategy="max"
)

text = "..."
tagger_predictions = tagger_pipe([text], batch_size=1)
sample_predictions = tagger_predictions[0]
print(sample_predictions)

✨ 主要特性

四種分類標籤：模型提供4種可能的分類，分別為“Equal（保留標記）”、“Replace（用掩碼替換標記）”、“Delete（移除標記）”和“Insert（在標記前插入掩碼）”，能靈活處理不同的文本去毒需求。
協同使用：可與掩碼填充器配合使用，實現更完善的文本去毒流程。

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關依賴庫（如torch、transformers）的官方安裝說明進行安裝。

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, pipeline

tagger_model_name = "IlyaGusev/rubertconv_toxic_editor"

device = "cuda" if torch.cuda.is_available() else "cpu"
device_num = 0 if device == "cuda" else -1
tagger_pipe = pipeline(
    "token-classification",
    model=tagger_model_name,
    tokenizer=tagger_model_name,
    framework="pt",
    device=device_num,
    aggregation_strategy="max"
)

text = "..."
tagger_predictions = tagger_pipe([text], batch_size=1)
sample_predictions = tagger_predictions[0]
print(sample_predictions)