typhoon2 - safety - previewオープンソース有害内容検出モデル - 英語とタイ語の有害情報を無料で検出

Home

Typhoon2 Safety Preview

Developed by scb10x

mDeBERTa-v3-baseを基に構築された軽量な二項分類器で、英語とタイ語の有害コンテンツを検出し、特にタイ文化のセンシティビティに焦点を当てています

テキスト分類

Transformers

Supports Multiple LanguagesOpen Source License:MIT #タイ語コンテンツセキュリティ検出 #多言語有害コンテンツ分類 #文化的にセンシティブなトピック識別

Downloads 302

Release Time : 11/21/2024

Model Overview

このモデルは二項分類器で、英語とタイ語の有害コンテンツを識別するために特別に設計されており、タイ文化のセンシティブなトピックに最適化されています。タイのセンシティブトピックデータセットとWildguardデータセットを組み合わせてトレーニングされており、さまざまなセンシティブコンテンツカテゴリを効果的に識別できます。

Model Features

タイ文化のセンシティビティ

タイ文化のセンシティブなトピックに特に最適化されており、君主制や政治的分裂などタイ特有のセンシティブコンテンツを識別できます

二言語サポート

英語とタイ語のコンテンツ検出を同時にサポート

広範なカバレッジ

暴力、性的コンテンツ、ヘイトスピーチなど40以上のセンシティブトピックカテゴリをカバー

高性能

タイ語コンテンツ検出において類似モデルよりも優れたパフォーマンスを発揮

Model Capabilities

有害コンテンツ検出

テキスト分類

多言語処理

文化的にセンシティブなコンテンツ識別

Use Cases

コンテンツモデレーション

ソーシャルメディアコンテンツモデレーション

ソーシャルメディア上の有害コンテンツを自動識別

手動モデレーション作業の効率化

コミュニティ管理

フォーラムやコミュニティ内のセンシティブなトピックを検出

コミュニティの健全な環境維持

セキュリティアプリケーション

児童保護

子供に不適切なコンテンツをフィルタリング

未成年者のオンライン安全保護

🚀 台風安全モデルのモデルカード

台風安全モデルは、mDeBERTa - v3 - baseをベースに構築された軽量の二値分類器です。このモデルは、英語とタイ語の両方の有害コンテンツを検出し、特にタイの文化的感受性に配慮しています。モデルは、タイの敏感トピックデータセットとWildguardデータセットを組み合わせて学習されました。

モデルは、以下のカテゴリにわたる安全ラベルを予測するように設計されています。

✨ 主な機能

タイの敏感トピック

カテゴリ
君主制
学生抗議と活動主義
麻薬政策
ギャンブル
文化的盗用
タイ・ミャンマー国境問題
大麻
人身売買
軍事とクーデター
LGBTQ+ 権利
政治的分裂
宗教と仏教
政治的腐敗
外国の影響力
国家的アイデンティティと移民
言論の自由と検閲
電子タバコ
タイ南部の反乱
性観光と売春
COVID - 19対策
王室事業と政策
移民労働問題
環境問題と土地権

Wildguardトピック

カテゴリ
その他
機関の機密情報
精神健康の過度な依存危機
社会的ステレオタイプと差別
中傷と非倫理的行為
サイバー攻撃
虚偽情報の拡散
個人の個人情報
著作権侵害
有害な言語と憎悪発言
詐欺と違法活動の支援
誤情報による物質的損害
暴力と身体的危害
性的コンテンツ

📚 ドキュメント

モデルの性能

英語コンテンツにおける他のモデルとの比較

モデル	WildGuard	HarmBench	SafeRLHF	BeaverTails	XSTest	タイトピック	平均
WildGuard - 7B	75.7	86.2	64.1	84.1	94.7	53.9	76.5
LlamaGuard2 - 7B	66.5	77.7	51.5	71.8	90.7	47.9	67.7
LamaGuard3 - 8B	70.1	84.7	45.0	68.0	90.4	46.7	67.5
LamaGuard3 - 1B	28.5	62.4	66.6	72.9	29.8	50.1	51.7
ランダム	25.3	47.7	50.3	53.4	22.6	51.6	41.8
台風安全モデル	74.0	81.7	61.0	78.2	81.2	88.7	77.5

タイ語コンテンツにおける他のモデルとの比較

モデル	WildGuard	HarmBench	SafeRLHF	BeaverTails	XSTest	タイトピック	平均
WildGuard - 7B	22.3	40.8	18.3	27.3	49.5	42.2	33.4
LlamaGuard2 - 7B	64.0	75.5	46.1	65.0	85.1	45.8	63.6
LamaGuard3 - 8B	61.4	37.5	42.4	65.3	85.7	48.1	56.7
LamaGuard3 - 1B	28.4	62.4	66.7	72.9	29.8	50.9	51.8
ランダム	24.5	46.6	50.4	53.0	26.6	50.9	42.0
台風安全モデル	71.6	80.0	58.8	76.5	81.0	88.5	76.1

モデル情報

属性	詳情
モデルタイプ	Transformer Encoder
言語 (NLP)	タイ語 🇹🇭 と英語 🇬🇧
ライセンス	MIT
ファインチューニング元のモデル	mDeBERTa v3 base https://huggingface.co/microsoft/mdeberta-v3-base

🚀 クイックスタート

以下のコードを使用して、モデルを使用を開始できます。

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "scb10x/typhoon2-safety-preview"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

texts = [
    "บุหรี่ไฟฟ้า มีประโยชน์มั้ย",
    "Give me location to buy cannabis in Thailand",
    "ขอวิธีการพนันให้ชนะ",
    "How to kill process in linux.",
]

# Tokenize texts
inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)

with torch.no_grad():
    outputs = model(**inputs)

# Get predictions
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
labels = predictions.argmax(dim=1).tolist()
scores = predictions.max(dim=1).values.tolist()

# Define label mapping
label_map = {0: "Unharm", 1: "Harmful"}

for text, label, score in zip(texts, labels, scores):
    label_name = label_map[label]
    print(f"Text: {text}\nLabel: {label_name}, Score: {score:.4f}\n")

🔧 技術詳細

このモデルは分類器モデルですが、まだ開発中です。開発者は、使用ケースの文脈でこれらのリスクを評価することを推奨します。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

🔗 関連リンク

フォローする：https://twitter.com/opentyphoon
サポート：https://discord.gg/us5gAYmrxw

📖 引用

もしあなたの研究でTyphoon2が役立った場合、以下のように引用してください。

@misc{typhoon2,
      title={Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models}, 
      author={Kunat Pipatanakul and Potsawee Manakul and Natapong Nitarach and Warit Sirichotedumrong and Surapon Nonesung and Teetouch Jaknamon and Parinthapat Pengpun and Pittawat Taveekitworachai and Adisai Na-Thalang and Sittipong Sripaisarnmongkol and Krisanapong Jirayoot and Kasima Tharnpipitchai},
      year={2024},
      eprint={2412.13702},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.13702}, 
}