kcElectra_base_Bad_Sentence_Classifierオープンソースモデル - 無料でデプロイ可能、韓語の敏感なコメントとチャット内容を正確に識別

ホーム

Kcelectra Base Bad Sentence Classifier

JminJによって開発

ELECTRAアーキテクチャに基づく韓国語テキスト分類モデル。コメントやチャット内容にセンシティブな情報が含まれているかどうかを判断するために使用されます

テキスト分類

Transformers

#韓国語センシティブコンテンツ検出 #ELECTRAファインチューニング #ソーシャルメディアコンテンツ審査

ダウンロード数 46

リリース時間 : 4/7/2022

モデル概要

このモデルはELECTRAモデルをファインチューニングして実装され、韓国語テキスト内の不適切な内容（センシティブな情報、ヘイトスピーチなど）を検出するために特別に設計されています。モデルは公開データセットでトレーニングされていますが、トレーニングデータは著作権の問題により公開されていません。

モデル特徴

複数データセット統合トレーニング

Korean UnsmileとKorean HateSpeechの2つのデータセットを統合し、二値分類形式で再ラベル付けしました

特定のセンシティブワード処理

特定の韓国語センシティブワード（例：'~노'、'좆'など）を含む文に特別なマーキング処理を施しています

複数モデル比較

3つの異なる韓国語ELECTRAモデルを使用してトレーニングと性能比較を行いました

モデル能力

韓国語テキスト分類

センシティブコンテンツ検出

ヘイトスピーチ識別

使用事例

コンテンツ審査

ソーシャルメディアコメントフィルタリング

ソーシャルメディア上の不適切なコメントを自動的に識別しフィルタリングします

精度88.49%（kcElectra_baseモデルベース）

チャット内容監視

チャットアプリ内の不適切な発言をリアルタイムで監視します

🚀 Bad_text_classifier

このモデルは、インターネット上の様々なコメントやチャットが、敏感な内容かどうかを判別することができます。公開データを用いてラベルを修正し、データを統合して微調整を行ったモデルです。ただし、このモデルが常にすべての文章を正確に判断できるわけではないことをご理解いただければ幸いです。

注意)
公開データの著作権の問題により、モデル学習に使用した変形データは公開できません。
また、このモデルの意見は私の意見とは無関係です。

🚀 クイックスタート

このセクションでは、モデルの使用方法を説明します。

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')
tokenizer = AutoTokenizer.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')

✨ 主な機能

このモデルは、インターネット上のコメントやチャットが敏感な内容かどうかを判別することができます。公開データを用いてラベルを修正し、データを統合して微調整を行っています。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

📚 ドキュメント

📦 データセット

データラベル

0 : 不適切な文章
1 : 適切な文章

使用したデータセット

データセットの加工方法

元々二値分類ではなかった2つのデータを二値分類の形式で再ラベリングし、Korean HateSpeech Datasetのうちラベル1（適切な文章）のみを抽出し、加工されたKorean Unsmile Datasetに統合しました。

Korean Unsmile Datasetでクリーンとラベリングされていたデータの一部を0（不適切な文章）に修正しました。

"~ノ"を含む文章のうち、"이기"、"노무"を含むデータは0（不適切な文章）に修正
"좆"、"봊"など性関連のニュアンスを含むデータは0（不適切な文章）に修正

🔧 モデル学習

huggingface transformersのElectraForSequenceClassificationを使用して微調整を行いました。
韓国語の公開Electraモデルのうち3つのモデルを使用してそれぞれ学習させました。

使用したモデル

📊 モデルの検証精度

モデル	精度
kcElectra_base_fp16_wd_custom_dataset	0.8849
tunibElectra_base_fp16_wd_custom_dataset	0.8726
koElectra_base_fp16_wd_custom_dataset	0.8434

注意)
すべてのモデルは、同じシード、学習率(3e-06)、重み減衰係数(0.001)、バッチサイズ(128)で学習されました。

📄 ライセンス

このプロジェクトの詳細については、GitHubリポジトリを参照してください。

📞 お問い合わせ

質問やフィードバックがある場合は、jminju254@gmail.comまでお問い合わせください。

🔗 参考文献

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご