🚀 DistilBERT-PoliticalBias
DistilBERT-PoliticalBiasは、テキスト内の政治的バイアスを検出し、軽減するために微調整されたDistilBERTベースのモデルです。このモデルは、拡散技術と微調整されたRoBERTa教師モデルからの知識蒸留を組み合わせた新しいアプローチを採用し、無バイアスのテキスト表現を実現します。
🚀 クイックスタート
DistilBERT-PoliticalBias
は、テキスト内の政治的バイアスを検出し、軽減するために微調整されたDistilBERTベースのモデルです。このモデルは、拡散技術と微調整されたRoBERTa教師モデルからの知識蒸留を組み合わせた新しいアプローチを採用し、無バイアスのテキスト表現を実現します。
✨ 主な機能
- テキスト内の政治的バイアスを検出し、軽減する機能を備えています。
- 拡散技術と知識蒸留を組み合わせた新しいアプローチを用いて、無バイアスのテキスト表現を実現します。
📦 インストール
このモデルを使用するには、Transformersライブラリを使ってロードすることができます。
from transformers import DistilBertForSequenceClassification, RobertaTokenizer
model = DistilBertForSequenceClassification.from_pretrained('cajcodes/DistilBERT-PoliticalBias')
tokenizer = RobertaTokenizer.from_pretrained('cajcodes/DistilBERT-PoliticalBias')
💻 使用例
基本的な使用法
from transformers import DistilBertForSequenceClassification, RobertaTokenizer
model = DistilBertForSequenceClassification.from_pretrained('cajcodes/DistilBERT-PoliticalBias')
tokenizer = RobertaTokenizer.from_pretrained('cajcodes/DistilBERT-PoliticalBias')
高度な使用法
sample_text = "We need to significantly increase social spending because it will reduce poverty and improve quality of life for all."
inputs = tokenizer(sample_text, return_tensors='pt')
outputs = model(**inputs)
predictions = torch.softmax(outputs.logits, dim=-1)
print(predictions)
📚 ドキュメント
学習
このモデルは、偏見について評価された658の声明からなる合成データセットを使用して学習されました。これらの声明はGPT-4によって生成され、非常に保守的なものから非常に自由主義的なものまで幅広いスペクトルをカバーしています。学習プロセスには、学習率6e-6で21エポックが含まれていました。モデルは、交差エントロピーとKLダイバージェンス損失の組み合わせを使用して最適化され、温度スケーリングによって教師モデルから知識を蒸留しました。
新しいアプローチ
学習では、偏見を拡散プロセスが除去しようとする「ノイズ」として扱う新しいアプローチを活用しています。知識蒸留を使用することで、学生モデルは教師モデルの偏見の少ない出力に予測を合わせるように学習し、結果として得られるテキストの偏見を効果的に軽減します。
評価
モデルは、検証セットで次のような性能指標を達成しました。
- Matthews Correlation Coefficient (MCC): 0.593
- ROC AUC Score: 0.924
これらの指標は、テキストの分類と偏見の軽減能力が強いことを示しています。
データセット
学習に使用されたデータセット cajcodes/political-bias
は、偏見評価付きの658の声明を含んでいます。これらの声明はGPT-4によって生成されました。このデータセットは、さらなる分析やモデルの学習に利用できます。
🔧 技術詳細
このモデルは、DistilBERTベースで、拡散技術と知識蒸留を組み合わせた新しいアプローチを用いて、テキスト内の政治的バイアスを検出し、軽減するように微調整されています。学習には、GPT-4によって生成された合成データセットが使用され、交差エントロピーとKLダイバージェンス損失の組み合わせで最適化されました。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
引用
このモデルまたはデータセットを使用する場合は、次のように引用してください。
@misc{cajcodes_distilbert_political_bias,
author = Christopher Jones,
title = {DistilBERT-PoliticalBias: A Novel Approach to Detecting and Reducing Political Bias in Text},
year = {2024},
howpublished = {\url{https://huggingface.co/cajcodes/DistilBERT-PoliticalBias}},
}