byt5-base-tweet-hate-detectionオープンソースモデル - ツイート内の憎しみ発言を高精度に検出

ホーム

Byt5 Base Tweet Hate Detection

Narrativaによって開発

このモデルはByT5-baseをファインチューニングしたシーケンス分類モデルで、ツイート内の仇恨発言を検出するために特化しています。

テキスト分類英語#ツイートの仇恨検出 #形態素解析なしの処理 #ノイズテキストの最適化

ダウンロード数 42

リリース時間 : 3/2/2022

モデル概要

このモデルはツイートの仇恨発言検出データセットでファインチューニングされ、ツイート内の人種差別や性別差別の内容を識別するために使用されます。

モデル特徴

形態素解析器なしの設計

ByT5は形態素解析器なしのバージョンで、UTF-8バイトシーケンスを直接処理するため、ノイズテキストデータの処理に特に適しています。

ツイート向け最適化

ツイート内容に特化してファインチューニングされており、ソーシャルメディア内の仇恨発言を効果的に識別できます。

ノイズデータの処理能力が強い

TweetsQAなどのノイズテキストタスクで同類のモデルよりも優れた性能を発揮します。

モデル能力

テキスト分類

仇恨発言検出

ソーシャルメディアコンテンツ分析

使用事例

ソーシャルメディアコンテンツ審査

仇恨発言の自動検出

ツイート内の人種差別や性別差別の内容を自動識別する

テストセットで79.8のF1スコアを達成

オンラインコミュニティ管理

不適切なコンテンツのフィルタリング

コミュニティ管理者が仇恨発言を迅速に識別して処理するのを支援する

🚀 ByT5-base を微調整したツイートにおけるヘイトスピーチ検出モデル

ByT5 ベースのモデルを、ツイートのヘイトスピーチ検出データセットで微調整し、シーケンス分類 という下流タスクに対応させました。

🚀 クイックスタート

このモデルを使用するには、まず必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。

git clone https://github.com/huggingface/transformers.git
pip install -q ./transformers

次に、以下のコードを使用してモデルをロードし、ツイートの分類を行うことができます。

from transformers import AutoTokenizer, T5ForConditionalGeneration

ckpt = 'Narrativa/byt5-base-tweet-hate-detection'

tokenizer = AutoTokenizer.from_pretrained(ckpt)
model = T5ForConditionalGeneration.from_pretrained(ckpt).to("cuda")

def classify_tweet(tweet):

    inputs = tokenizer([tweet], padding='max_length', truncation=True, max_length=512, return_tensors='pt')
    input_ids = inputs.input_ids.to('cuda')
    attention_mask = inputs.attention_mask.to('cuda')
    output = model.generate(input_ids, attention_mask=attention_mask)
    return tokenizer.decode(output[0], skip_special_tokens=True)
    
    
classify_tweet('here goes your tweet...')

✨ 主な機能

ByT5ベースのモデルを使用して、ツイート内のヘイトスピーチを検出します。
シーケンス分類タスクに最適化されています。

📚 ドキュメント

ByT5 - Baseの詳細 🧠

ByT5は、GoogleのT5 のトークナイザーを使用しないバージョンで、一般的に MT5 のアーキテクチャに従っています。 ByT5は、平均20のUTF-8文字のスパンマスクを使用して、mC4 のみで事前学習され、教師あり学習は行われていません。したがって、このモデルは下流タスクで使用する前に微調整する必要があります。 ByT5は、ノイズの多いテキストデータで特に良好な性能を発揮します。例えば、google/byt5-base は TweetQA で mt5-base を大きく上回っています。論文: ByT5: Towards a token-free future with pre-trained byte-to-byte models 著者: Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel

下流タスクの詳細（テキスト生成としてのシーケンス分類） - データセット 📚

tweets_hate_speech_detection

このタスクの目的は、ツイート内のヘイトスピーチを検出することです。簡単に言うと、ツイートに人種差別的または性差別的な感情が含まれている場合、そのツイートはヘイトスピーチを含むとみなします。したがって、このタスクは、人種差別的または性差別的なツイートを他のツイートから分類することです。

正式には、ツイートとラベルのトレーニングサンプルが与えられた場合、ラベル '1' はツイートが人種差別的/性差別的であることを示し、ラベル '0' はツイートが人種差別的/性差別的でないことを示します。あなたの目的は、与えられたテストデータセットのラベルを予測することです。

データインスタンス: このデータセットには、ツイートがヘイトスピーチかどうかを示すラベルが含まれています。

{'label': 0,  # ヘイトスピーチではない
 'tweet': ' @user when a father is dysfunctional and is so selfish he drags his kids into his dysfunction.   #run'}

データフィールド: label: 1 - ヘイトスピーチである、0 - ヘイトスピーチではない tweet: ツイートの内容（文字列）
データ分割: このデータには、31962 件のトレーニングデータが含まれています。

テストセットのメトリクス 🧾

エントリの5％を使用して代表的なテストセットを作成しました。このデータセットは非常に不均衡で、F1スコアは79.8 でした。

🔧 技術詳細

このモデルは、Narrativa によって作成されました。 Narrativaについて: 自然言語生成 (NLG) | 当社の機械学習ベースのプラットフォームであるGabrieleは、自然言語ソリューションを構築および展開します。 #NLG #AI

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご