kcElectra_base_Bad_Sentence_Classifier開源模型 - 免費部署，精準識別韓語敏感評論和聊天內容

首頁

Kcelectra Base Bad Sentence Classifier

由JminJ開發

基於ELECTRA架構的韓語文本分類模型，用於判斷評論和聊天內容是否包含敏感信息

文本分類

Transformers

#韓語敏感內容檢測 #ELECTRA微調 #社交媒體內容審核

下載量 46

發布時間 : 4/7/2022

模型概述

該模型通過微調ELECTRA模型實現，專門用於檢測韓語文本中的不良內容（如敏感信息、仇恨言論等）。模型基於公開數據集訓練，但訓練數據因版權問題未公開。

模型特點

多數據集融合訓練

整合Korean Unsmile和Korean HateSpeech兩個數據集，並重新標記為二分類形式

特定敏感詞處理

對包含特定韓語敏感詞（如'~노'、'좆'等）的語句進行特殊標記處理

多模型對比

使用三種不同的韓語ELECTRA模型進行訓練和性能比較

模型能力

韓語文本分類

敏感內容檢測

仇恨言論識別

使用案例

內容審核

社交媒體評論過濾

自動識別並過濾社交媒體上的不良評論

準確率達88.49%（基於kcElectra_base模型）

聊天內容監控

即時監控聊天應用中的不當言論

🚀 不良文本分類器

本項目公開了一個用於判別互聯網上各類評論、聊天內容是否包含敏感信息的模型。該模型使用公開數據集，對標籤進行修改並整合數據後進行了微調訓練。需要說明的是，此模型並非能對所有語句都做出準確判斷，還請您予以理解。

注意事項：
由於公開數據的版權問題，模型訓練中使用的經過處理的數據無法公開。
此外，該模型的觀點與本人觀點無關。

🚀 快速開始

模型使用方法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')
tokenizer = AutoTokenizer.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')

✨ 主要特性

本模型能夠對互聯網上的評論、聊天內容進行敏感信息判別，通過對公開數據集的處理和微調訓練，提升了模型的性能。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')
tokenizer = AutoTokenizer.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')

📚 詳細文檔

數據集

數據標籤

0 : 不良語句
1 : 正常語句

使用的數據集

數據集處理方法

將原本並非二分類的兩個數據集重新進行二分類標註，然後從Korean HateSpeech Dataset中篩選出標籤為1（正常語句）的數據，並與處理後的Korean Unsmile Dataset合併。

對Korean Unsmile Dataset中標記為“clean”的數據進行了部分修改：

包含“~노”且同時包含“이기”“노무”的語句，將標籤修改為0（不良語句）。
包含“좆”“봊”等具有性暗示意味的語句，將標籤修改為0（不良語句）。

模型訓練

使用huggingface transformers的ElectraForSequenceClassification進行微調訓練。
使用了三種公開的韓語Electra模型分別進行訓練。

使用的模型

模型驗證準確率

模型	準確率
kcElectra_base_fp16_wd_custom_dataset	0.8849
tunibElectra_base_fp16_wd_custom_dataset	0.8726
koElectra_base_fp16_wd_custom_dataset	0.8434

注意：
所有模型均在相同的種子、學習率（3e-06）、權重衰減係數（0.001）和批量大小（128）的條件下進行訓練。

🔧 技術細節

本項目使用huggingface transformers庫中的ElectraForSequenceClassification進行微調訓練，通過對公開數據集的處理和整合，提升了模型的性能。同時，使用了三種不同的韓語Electra模型進行訓練，並在相同的訓練參數下進行比較。

📄 許可證

文檔未提及許可證信息，暫不展示。

📞 聯繫方式

jminju254@gmail.com

🌐 GitHub鏈接

https://github.com/JminJ/Bad_text_classifier

📚 參考文獻

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫