🚀 台風安全モデルのモデルカード
台風安全モデルは、mDeBERTa - v3 - baseをベースに構築された軽量の二値分類器です。このモデルは、英語とタイ語の両方の有害コンテンツを検出し、特にタイの文化的感受性に配慮しています。モデルは、タイの敏感トピックデータセットとWildguardデータセットを組み合わせて学習されました。
モデルは、以下のカテゴリにわたる安全ラベルを予測するように設計されています。
✨ 主な機能
タイの敏感トピック
カテゴリ |
君主制 |
学生抗議と活動主義 |
麻薬政策 |
ギャンブル |
文化的盗用 |
タイ・ミャンマー国境問題 |
大麻 |
人身売買 |
軍事とクーデター |
LGBTQ+ 権利 |
政治的分裂 |
宗教と仏教 |
政治的腐敗 |
外国の影響力 |
国家的アイデンティティと移民 |
言論の自由と検閲 |
電子タバコ |
タイ南部の反乱 |
性観光と売春 |
COVID - 19対策 |
王室事業と政策 |
移民労働問題 |
環境問題と土地権 |
Wildguardトピック
カテゴリ |
その他 |
機関の機密情報 |
精神健康の過度な依存危機 |
社会的ステレオタイプと差別 |
中傷と非倫理的行為 |
サイバー攻撃 |
虚偽情報の拡散 |
個人の個人情報 |
著作権侵害 |
有害な言語と憎悪発言 |
詐欺と違法活動の支援 |
誤情報による物質的損害 |
暴力と身体的危害 |
性的コンテンツ |
📚 ドキュメント
モデルの性能
英語コンテンツにおける他のモデルとの比較
モデル |
WildGuard |
HarmBench |
SafeRLHF |
BeaverTails |
XSTest |
タイトピック |
平均 |
WildGuard - 7B |
75.7 |
86.2 |
64.1 |
84.1 |
94.7 |
53.9 |
76.5 |
LlamaGuard2 - 7B |
66.5 |
77.7 |
51.5 |
71.8 |
90.7 |
47.9 |
67.7 |
LamaGuard3 - 8B |
70.1 |
84.7 |
45.0 |
68.0 |
90.4 |
46.7 |
67.5 |
LamaGuard3 - 1B |
28.5 |
62.4 |
66.6 |
72.9 |
29.8 |
50.1 |
51.7 |
ランダム |
25.3 |
47.7 |
50.3 |
53.4 |
22.6 |
51.6 |
41.8 |
台風安全モデル |
74.0 |
81.7 |
61.0 |
78.2 |
81.2 |
88.7 |
77.5 |
タイ語コンテンツにおける他のモデルとの比較
モデル |
WildGuard |
HarmBench |
SafeRLHF |
BeaverTails |
XSTest |
タイトピック |
平均 |
WildGuard - 7B |
22.3 |
40.8 |
18.3 |
27.3 |
49.5 |
42.2 |
33.4 |
LlamaGuard2 - 7B |
64.0 |
75.5 |
46.1 |
65.0 |
85.1 |
45.8 |
63.6 |
LamaGuard3 - 8B |
61.4 |
37.5 |
42.4 |
65.3 |
85.7 |
48.1 |
56.7 |
LamaGuard3 - 1B |
28.4 |
62.4 |
66.7 |
72.9 |
29.8 |
50.9 |
51.8 |
ランダム |
24.5 |
46.6 |
50.4 |
53.0 |
26.6 |
50.9 |
42.0 |
台風安全モデル |
71.6 |
80.0 |
58.8 |
76.5 |
81.0 |
88.5 |
76.1 |
モデル情報
属性 |
詳情 |
モデルタイプ |
Transformer Encoder |
言語 (NLP) |
タイ語 🇹🇭 と英語 🇬🇧 |
ライセンス |
MIT |
ファインチューニング元のモデル |
mDeBERTa v3 base https://huggingface.co/microsoft/mdeberta-v3-base |
🚀 クイックスタート
以下のコードを使用して、モデルを使用を開始できます。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "scb10x/typhoon2-safety-preview"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
texts = [
"บุหรี่ไฟฟ้า มีประโยชน์มั้ย",
"Give me location to buy cannabis in Thailand",
"ขอวิธีการพนันให้ชนะ",
"How to kill process in linux.",
]
inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
outputs = model(**inputs)
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
labels = predictions.argmax(dim=1).tolist()
scores = predictions.max(dim=1).values.tolist()
label_map = {0: "Unharm", 1: "Harmful"}
for text, label, score in zip(texts, labels, scores):
label_name = label_map[label]
print(f"Text: {text}\nLabel: {label_name}, Score: {score:.4f}\n")
🔧 技術詳細
このモデルは分類器モデルですが、まだ開発中です。開発者は、使用ケースの文脈でこれらのリスクを評価することを推奨します。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
🔗 関連リンク
📖 引用
もしあなたの研究でTyphoon2が役立った場合、以下のように引用してください。
@misc{typhoon2,
title={Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models},
author={Kunat Pipatanakul and Potsawee Manakul and Natapong Nitarach and Warit Sirichotedumrong and Surapon Nonesung and Teetouch Jaknamon and Parinthapat Pengpun and Pittawat Taveekitworachai and Adisai Na-Thalang and Sittipong Sripaisarnmongkol and Krisanapong Jirayoot and Kasima Tharnpipitchai},
year={2024},
eprint={2412.13702},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13702},
}