🚀 テキスト分類モデル
このモデルは、テキストを「Abusive (Hatespeech and Offensive)」または「Normal」に分類するために使用されます。訓練データに人間の根拠を含めることで、モデルの性能を向上させています。
🚀 クイックスタート
モデルの使用方法
models.py 内の Model_Rational_Label クラスを使用してモデルを読み込んでください。このホストされた推論APIでのデフォルトの予測は、異なるクラス初期化を使用しているため、間違っている可能性があります。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from models import *
tokenizer = AutoTokenizer.from_pretrained("Hate-speech-CNERG/bert-base-uncased-hatexplain-rationale-two")
model = Model_Rational_Label.from_pretrained("Hate-speech-CNERG/bert-base-uncased-hatexplain-rationale-two")
inputs = tokenizer('He is a great guy", return_tensors="pt")
prediction_logits, _ = model(input_ids=inputs['input_ids'],attention_mask=inputs['attention_mask'])
✨ 主な機能
- テキストを「Abusive (Hatespeech and Offensive)」または「Normal」に分類することができます。
- 根拠予測ヘッドを持ち、虐待的な文章から根拠を予測することができます。
📦 インストール
このセクションでは、インストールに関する具体的な手順が提供されていません。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from models import *
tokenizer = AutoTokenizer.from_pretrained("Hate-speech-CNERG/bert-base-uncased-hatexplain-rationale-two")
model = Model_Rational_Label.from_pretrained("Hate-speech-CNERG/bert-base-uncased-hatexplain-rationale-two")
inputs = tokenizer('He is a great guy", return_tensors="pt")
prediction_logits, _ = model(input_ids=inputs['input_ids'],attention_mask=inputs['attention_mask'])
📚 ドキュメント
モデルの詳細
- 開発者: Binny Mathew, Punyajoy Saha, Seid Muhie Yimam, Chris Biemann, Pawan Goyal, and Animesh Mukherjee
- モデルの種類: テキスト分類
- 言語: 英語
- ライセンス: Apache-2.0
- 親モデル: BERT base uncased model を参照して、BERTベースモデルの詳細を確認してください。
- 詳細情報のリソース:
モデルの用途
直接的な使用
このモデルは、テキスト分類に使用することができます。
下流の使用
詳細情報はまだ提供されていません。
誤用と範囲外の使用
このモデルは、人々に敵意や疎外感を与える環境を意図的に作るために使用してはいけません。また、このモデルは人やイベントの事実や真実を表現するように訓練されていないため、そのような内容を生成するために使用することは、このモデルの能力の範囲外です。
リスク、制限事項、バイアス
⚠️ 重要提示
このセクションには、不快な内容、攻撃的な内容、歴史的および現在のステレオタイプを広める可能性のある内容が含まれています。
多くの研究で、言語モデルのバイアスと公平性の問題が調査されています(例えば、Sheng et al. (2021) と Bender et al. (2021) を参照)。
このモデルによって生成される予測には、保護されたクラス、アイデンティティの特性、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。例えば、こちら を参照してください。
モデルの作者は、HateXplainの論文で、以下のことを述べています。
分類タスクに役立つ可能性のあるプロフィールのバイオ、ユーザーの性別、投稿履歴などの外部コンテキストは考慮していません。また、この研究では英語に焦点を当てています。多言語のヘイトスピーチは考慮されていません。
評価
モデルの作者は、関連論文 で、HateXplainの微調整モデルの隠れ層のサイズとアテンションについて詳細を説明しています。
結果
モデルの作者は、論文とGitリポジトリの両方で、BERT - HateXplainの出力をBERTや他のHateXplainの微調整モデルと比較した例を提供しています。こちら を参照してください。
🔧 技術詳細
このセクションでは、具体的な技術的な詳細が提供されていません。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
📚 引用情報
@article{mathew2020hatexplain,
title={HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection},
author={Mathew, Binny and Saha, Punyajoy and Yimam, Seid Muhie and Biemann, Chris and Goyal, Pawan and Mukherjee, Animesh},
journal={arXiv preprint arXiv:2012.10289},
year={2020}
}