🚀 RuBERTConv毒性編輯器
本項目基於rubert-base-cased-conversational構建了用於文本去毒的標籤模型。它能對文本進行分類標記,配合掩碼填充器使用,可有效實現文本的去毒處理。
🚀 快速開始
代碼使用示例
你可以通過以下代碼在Colab中使用該模型,點擊此處打開Colab示例。
import torch
from transformers import AutoTokenizer, pipeline
tagger_model_name = "IlyaGusev/rubertconv_toxic_editor"
device = "cuda" if torch.cuda.is_available() else "cpu"
device_num = 0 if device == "cuda" else -1
tagger_pipe = pipeline(
"token-classification",
model=tagger_model_name,
tokenizer=tagger_model_name,
framework="pt",
device=device_num,
aggregation_strategy="max"
)
text = "..."
tagger_predictions = tagger_pipe([text], batch_size=1)
sample_predictions = tagger_predictions[0]
print(sample_predictions)
✨ 主要特性
- 四種分類標籤:模型提供4種可能的分類,分別為“Equal(保留標記)”、“Replace(用掩碼替換標記)”、“Delete(移除標記)”和“Insert(在標記前插入掩碼)”,能靈活處理不同的文本去毒需求。
- 協同使用:可與掩碼填充器配合使用,實現更完善的文本去毒流程。
📦 安裝指南
文檔未提及具體安裝步驟,可參考相關依賴庫(如torch
、transformers
)的官方安裝說明進行安裝。
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, pipeline
tagger_model_name = "IlyaGusev/rubertconv_toxic_editor"
device = "cuda" if torch.cuda.is_available() else "cpu"
device_num = 0 if device == "cuda" else -1
tagger_pipe = pipeline(
"token-classification",
model=tagger_model_name,
tokenizer=tagger_model_name,
framework="pt",
device=device_num,
aggregation_strategy="max"
)
text = "..."
tagger_predictions = tagger_pipe([text], batch_size=1)
sample_predictions = tagger_predictions[0]
print(sample_predictions)
高級用法
文檔未提供高級用法示例,你可以根據實際需求對代碼進行擴展,例如調整pipeline
的參數或結合其他工具進行更復雜的文本處理。
📚 詳細文檔
模型描述
基於rubert-base-cased-conversational的去毒標籤模型,有4種可能的分類,需與掩碼填充器配合使用。
預期用途和限制
可用於文本去毒處理,但文檔未提及具體限制信息。
訓練數據
訓練過程
評估結果
待公佈。
🔧 技術細節
模型基於預訓練的rubert-base-cased-conversational進行微調,通過對文本進行分類標記來實現去毒功能。具體的技術實現細節可參考相關代碼文件。
📄 許可證
本項目採用Apache 2.0許可證。
屬性 |
詳情 |
模型類型 |
基於rubert-base-cased-conversational的去毒標籤模型 |
訓練數據 |
russe_detox_2022數據集 |