social-bias-nerオープンソースの命名エンティティ認識モデル - テキストの社会的偏見のカテゴリを無料で検出

ホーム

Social Bias Ner

ethical-spectacleによって開発

BERTを微調整した命名エンティティ識別モデルで、テキスト中の社会的偏見の種類を検出するために使用されます。

シーケンスラベリング

Transformers

英語オープンソースライセンス:MIT #多ラベル偏見識別 #BERT微調整 #テキスト公平性検出

ダウンロード数 3,435

リリース時間 : 9/20/2024

モデル概要

このモデルは、多ラベルタグ付け分類技術を通じて、テキスト中の包括的表現(GEN)、不公平性(UNFAIR)、ステレオタイプ(STEREO)の3種類の社会的偏見内容を専門的に識別します。

モデル特徴

多ラベル分類能力

テキスト中の複数の社会的偏見タイプを同時に識別することをサポートします。

高精度検出

F1値が0.7864に達し、わずかな社会的偏見表現を効果的に識別することができます。

エコフレンドリーなトレーニング

トレーニング過程では、わずか8kgの二酸化炭素排出量しか発生しません。

モデル能力

テキスト偏見検出

多ラベルエンティティ識別

社会的偏見分類

使用事例

コンテンツ審査

ソーシャルメディアコンテンツのスクリーニング

ユーザー生成コンテンツ中の潜在的な偏見表現を自動的に検出します。

ステレオタイプや不公平な評価を含むテキストフラグメントをマークすることができます。

学術研究

偏見言語分析

社会科学研究において、テキスト材料の偏見程度を定量化するために使用されます。

構造化されたアノテーションデータを提供し、統計分析をサポートします。

🚀 Social Bias NER

このNERモデルは、BERTをファインチューニングしたもので、以下のマルチラベルトークン分類に使用されます。

(GEN)eralizations（一般化）
(UNFAIR)ness（不公平性）
(STEREO)types（固定観念）

スペースで試すことができます :).

🚀 クイックスタート

Transformersパイプラインにはマルチラベルトークン分類用のクラスはありませんが、このコードを使用してモデルをロード、実行し、出力を整形することができます。

基本的な使用法

import json
import torch
from transformers import BertTokenizerFast, BertForTokenClassification
import gradio as gr

# init important things
tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
model = BertForTokenClassification.from_pretrained('ethical-spectacle/social-bias-ner')
model.eval()
model.to('cuda' if torch.cuda.is_available() else 'cpu')

# ids to labels we want to display
id2label = {
    0: 'O',
    1: 'B-STEREO',
    2: 'I-STEREO',
    3: 'B-GEN',
    4: 'I-GEN',
    5: 'B-UNFAIR',
    6: 'I-UNFAIR'
}

# predict function you'll want to use if using in your own code
def predict_ner_tags(sentence):
    inputs = tokenizer(sentence, return_tensors="pt", padding=True, truncation=True, max_length=128)
    input_ids = inputs['input_ids'].to(model.device)
    attention_mask = inputs['attention_mask'].to(model.device)

    with torch.no_grad():
        outputs = model(input_ids=input_ids, attention_mask=attention_mask)
        logits = outputs.logits
        probabilities = torch.sigmoid(logits)
        predicted_labels = (probabilities > 0.5).int() # remember to try your own threshold

    result = []
    tokens = tokenizer.convert_ids_to_tokens(input_ids[0])
    for i, token in enumerate(tokens):
        if token not in tokenizer.all_special_tokens:
            label_indices = (predicted_labels[0][i] == 1).nonzero(as_tuple=False).squeeze(-1)
            labels = [id2label[idx.item()] for idx in label_indices] if label_indices.numel() > 0 else ['O']
            result.append({"token": token, "labels": labels})

    return json.dumps(result, indent=4)

📚 ドキュメント

GUS-Netプロジェクトの詳細

リソース

GUS-Net論文で提示されたデータセットとモデルについては、このコレクションをご覧ください。
GUS-Netは、The Fair-ly Projectの一部として、Chrome拡張機能およびPyPIパッケージで実装されています。

引用方法

@article{powers2024gusnet,
  title={{GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes}},
  author={Maximus Powers and Umang Mavani and Harshitha Reddy Jonala and Ansh Tiwari and Hua Wei},
  journal={arXiv preprint arXiv:2410.08388},
  year={2024},
  url={https://arxiv.org/abs/2410.08388}
}

当研究グループのEthical Spectacleをフォローしてください :).

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📊 メトリクス

名称	タイプ	値
F1	F1	0.7864
Recall	Recall	0.7617

🌱 モデル情報

属性	詳情
ベースモデル	bert-base-uncased
CO2排出量	排出量: 8, トレーニングタイプ: fine-tuning, 地理的位置: Phoenix, AZ, 使用ハードウェア: T4