Bloomz-3b-guardrailオープンソーステキスト分類モデル - 5種のパターンのテキスト毒性を無料で検出

ホーム

Bloomz 3b Guardrail

cmarkeaによって開発

Bloomz-3b-guardrailは、Bloomz-3b-sft-chatをファインチューニングしたテキスト分類モデルで、5種類のモードのテキスト毒性を検出するために使用されます。

テキスト分類

Transformers

複数言語対応オープンソースライセンス:Openrail #マルチモーダル毒性検出 #高い相関スコア #英仏語対応

ダウンロード数 249

リリース時間 : 12/1/2023

モデル概要

このモデルは、生成モデルの出力を監視および制御し、テキストの猥褻な内容、色情的な明示的内容、身份攻撃、侮辱、脅威の5種類のモードでの毒性レベルを検出することを目的としています。

モデル特徴

マルチモード毒性検出

テキストの猥褻な内容、色情的な明示的内容、身份攻撃、侮辱、脅威の5種類のモードでの毒性を検出することができます。

高い相関性

モデルの出力は評価者のスコアと高度に相関しており、ピアソン相関係数は約80です。

多言語対応

英語とフランス語の毒性検出をサポートしています。

モデル能力

テキスト毒性検出

マルチモード分類

多言語処理

使用事例

コンテンツ審査

ソーシャルメディアコンテンツの監視

ソーシャルメディア上の有害コンテンツ（侮辱、脅威など）を検出するために使用されます。

複数の毒性モードを正確に識別し、プラットフォームが違反コンテンツを迅速に処理するのに役立ちます。

生成モデル出力の制御

生成モデルの出力を監視し、有害コンテンツを生成しないようにします。

生成コンテンツの毒性を効果的に低減し、ユーザー体験を向上させます。

🚀 Bloomz-3b-guardrail

このBloomz-3b-guardrailモデルは、Bloomz-3b-sft-chatモデルをファインチューニングしたものです。このモデルは、テキストの毒性を5つのモードで検出するように設計されています。

猥褻な内容（Obscene）：社会的規範や良識の基準に照らして、不快感を与える、不適切な、または道徳的に不適切な内容。
性的露骨な内容（Sexual explicit）：性的な側面を明確かつ詳細に表現した内容。
アイデンティティ攻撃（Identity attack）：人のアイデンティティ、特に人種、性別、性的指向、宗教、民族出身などの特性に基づいて、攻撃、中傷、または嫌がらせを目的とした内容。
侮辱（Insult）：人を攻撃または中傷するために使用される、不快感を与える、失礼な、または傷つける内容。
脅威（Threat）：個人に対する直接的な脅威を表す内容。

このようなモデリングは、生成モデルの出力の監視と制御、および生成された毒性の程度を測定するのに最適です。

✨ 主な機能

このモデルは、テキストの毒性を5つのモードで検出することができます。それぞれのモードは、特定のタイプの毒性をカバーしており、生成モデルの出力を監視し、毒性の程度を測定するのに役立ちます。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

from transformers import pipeline

guardrail = pipeline("text-classification", "cmarkea/bloomz-3b-guardrail")

list_text: List[str] = [...]
result = guardrail(
    list_text,
    return_all_scores=True, # Crucial for assessing all modalities of toxicity!
    function_to_apply='sigmoid' # To ensure obtaining a score between 0 and 1!
)

📚 ドキュメント

トレーニング

トレーニングデータセットは、50万件の英語のコメントと、Google翻訳によって翻訳された50万件のフランス語のコメントから構成されています。それぞれのコメントには、毒性の重症度の確率が付与されています。使用されたデータセットは、Kaggleコンペティション「Jigsaw Unintended Bias in Toxicity Classification」の一部として、Jigsawによって提供されています。スコアは毒性モードの確率を表すため、交差エントロピー型の最適化目標が選択されました。 $$loss=l_{\mathrm{obscene}}+l_{\mathrm{sexual_explicit}}+l_{\mathrm{identity_attack}}+l_{\mathrm{insult}}+l_{\mathrm{threat}}$$ ここで、 $$l_i=\frac{-1}{\vert\mathcal{O}\vert}\sum_{o\in\mathcal{O}}\mathrm{score}{i,o}\log(\sigma(\mathrm{logit}{i,o}))+(\mathrm{score}{i,o}-1)\log(1-\sigma(\mathrm{logit}{i,o}))$$ ただし、$\sigma$はシグモイド関数で、$\mathcal{O}$は学習観測値の集合を表します。

ベンチマーク

ピアソンの相互相関が評価指標として選択されました。ピアソンの相互相関は、-1から1までの値をとる指標で、0は相関がないことを、-1は完全な負の相関を、1は完全な正の相関を表します。目標は、トレーニング中に見られなかった730件のコメントに対するモデルのスコアと審査員によって割り当てられたスコアとの相関を定量的に測定することです。

モデル	言語	猥褻な内容 (x100)	性的露骨な内容 (x100)	アイデンティティ攻撃 (x100)	侮辱 (x100)	脅威 (x100)	平均
Bloomz-560m-guardrail	フランス語	64	74	72	70	58	68
Bloomz-560m-guardrail	英語	63	63	62	70	51	62
Bloomz-3b-guardrail	フランス語	71	82	84	77	77	78
Bloomz-3b-guardrail	英語	74	76	79	76	79	77

560mモデルでは約65、3bモデルでは約80の相関があり、出力は審査員のスコアと高度に相関しています。

異なるモードの最大値を選択すると、元のデータセットの目標毒性に非常に近いスコアが得られ、相関は0.976、平均絶対誤差は0.013±0.04です。したがって、このアプローチは、レアな毒性モードを超えて、モデルの全体的なパフォーマンスを評価するための堅牢な近似として機能します。毒性閾値を0.5以上として目標を作成すると、730件の観測値のうち240件が陽性となります。そのため、Precision-Recall AUC、ROC AUC、正解率、およびF1スコアを決定します。

モデル	言語	PR AUC (%)	ROC AUC (%)	正解率 (%)	F1スコア (%)
Bloomz-560m-guardrail	フランス語	77	85	78	60
Bloomz-560m-guardrail	英語	77	84	79	62
Bloomz-3b-guardrail	フランス語	82	89	84	72
Bloomz-3b-guardrail	英語	80	88	82	70

🔧 技術詳細

このモデルは、Bloomz-3b-sft-chatモデルをファインチューニングして作成されています。トレーニングデータセットは、英語とフランス語のコメントから構成され、それぞれに毒性の重症度の確率が付与されています。最適化目標として交差エントロピー型の損失関数が使用されています。

📄 ライセンス

このモデルは、bigscience-bloom-rail-1.0ライセンスの下で提供されています。

📖 引用

@online{DeBloomzGuard,
  AUTHOR = {Cyrile Delestre},
  ORGANIZATION = {Cr{\'e}dit Mutuel Ark{\'e}a},
  URL = {https://huggingface.co/cmarkea/bloomz-3b-guardrail},
  YEAR = {2023},
  KEYWORDS = {NLP ; Transformers ; LLM ; Bloomz},
}