Kcelectra Base Bad Sentence Classifier
K
Kcelectra Base Bad Sentence Classifier
JminJによって開発
ELECTRAアーキテクチャに基づく韓国語テキスト分類モデル。コメントやチャット内容にセンシティブな情報が含まれているかどうかを判断するために使用されます
ダウンロード数 46
リリース時間 : 4/7/2022
モデル概要
このモデルはELECTRAモデルをファインチューニングして実装され、韓国語テキスト内の不適切な内容(センシティブな情報、ヘイトスピーチなど)を検出するために特別に設計されています。モデルは公開データセットでトレーニングされていますが、トレーニングデータは著作権の問題により公開されていません。
モデル特徴
複数データセット統合トレーニング
Korean UnsmileとKorean HateSpeechの2つのデータセットを統合し、二値分類形式で再ラベル付けしました
特定のセンシティブワード処理
特定の韓国語センシティブワード(例:'~노'、'좆'など)を含む文に特別なマーキング処理を施しています
複数モデル比較
3つの異なる韓国語ELECTRAモデルを使用してトレーニングと性能比較を行いました
モデル能力
韓国語テキスト分類
センシティブコンテンツ検出
ヘイトスピーチ識別
使用事例
コンテンツ審査
ソーシャルメディアコメントフィルタリング
ソーシャルメディア上の不適切なコメントを自動的に識別しフィルタリングします
精度88.49%(kcElectra_baseモデルベース)
チャット内容監視
チャットアプリ内の不適切な発言をリアルタイムで監視します
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98