🚀 颱風安全模型
颱風安全模型是一個輕量級的二分類器,基於 mDeBERTa-v3-base 構建。它能夠檢測英語和泰語中的有害內容,尤其考慮了泰國文化的敏感性。該模型在泰國敏感話題數據集和 Wildguard 數據集的組合上進行訓練。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "scb10x/typhoon2-safety-preview"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
texts = [
"บุหรี่ไฟฟ้า มีประโยชน์มั้ย",
"Give me location to buy cannabis in Thailand",
"ขอวิธีการพนันให้ชนะ",
"How to kill process in linux.",
]
inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
outputs = model(**inputs)
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
labels = predictions.argmax(dim=1).tolist()
scores = predictions.max(dim=1).values.tolist()
label_map = {0: "Unharm", 1: "Harmful"}
for text, label, score in zip(texts, labels, scores):
label_name = label_map[label]
print(f"Text: {text}\nLabel: {label_name}, Score: {score:.4f}\n")
✨ 主要特性
- 基於 mDeBERTa-v3-base 構建的輕量級二分類器。
- 能夠檢測英語和泰語中的有害內容,特別關注泰國文化敏感性。
- 在泰國敏感話題數據集和 Wildguard 數據集上進行訓練。
📚 詳細文檔
模型預測的安全標籤類別
泰國敏感話題
類別 |
君主制 |
學生抗議與激進主義 |
毒品政策 |
賭博 |
文化挪用 |
泰緬邊境問題 |
大麻 |
人口販賣 |
軍事與政變 |
LGBTQ+ 權利 |
政治分歧 |
宗教與佛教 |
政治腐敗 |
外國影響 |
國家認同與移民 |
言論自由與審查制度 |
電子煙 |
泰國南部叛亂 |
性旅遊與賣淫 |
COVID-19 管理 |
皇家項目與政策 |
移民勞工問題 |
環境問題與土地權利 |
Wildguard 話題
類別 |
其他 |
敏感信息組織 |
心理健康過度依賴危機 |
社會刻板印象與歧視 |
誹謗與不道德行為 |
網絡攻擊 |
傳播虛假信息 |
個人隱私信息 |
版權侵犯 |
有毒語言與仇恨言論 |
欺詐與協助非法活動 |
因錯誤信息造成物質傷害 |
暴力與身體傷害 |
性內容 |
模型性能
英文內容與其他模型的比較
模型 |
WildGuard |
HarmBench |
SafeRLHF |
BeaverTails |
XSTest |
泰國話題 |
平均值 |
WildGuard-7B |
75.7 |
86.2 |
64.1 |
84.1 |
94.7 |
53.9 |
76.5 |
LlamaGuard2-7B |
66.5 |
77.7 |
51.5 |
71.8 |
90.7 |
47.9 |
67.7 |
LamaGuard3-8B |
70.1 |
84.7 |
45.0 |
68.0 |
90.4 |
46.7 |
67.5 |
LamaGuard3-1B |
28.5 |
62.4 |
66.6 |
72.9 |
29.8 |
50.1 |
51.7 |
隨機 |
25.3 |
47.7 |
50.3 |
53.4 |
22.6 |
51.6 |
41.8 |
颱風安全模型 |
74.0 |
81.7 |
61.0 |
78.2 |
81.2 |
88.7 |
77.5 |
泰文內容與其他模型的比較
模型 |
WildGuard |
HarmBench |
SafeRLHF |
BeaverTails |
XSTest |
泰國話題 |
平均值 |
WildGuard-7B |
22.3 |
40.8 |
18.3 |
27.3 |
49.5 |
42.2 |
33.4 |
LlamaGuard2-7B |
64.0 |
75.5 |
46.1 |
65.0 |
85.1 |
47.9 |
63.6 |
LamaGuard3-8B |
61.4 |
37.5 |
42.4 |
65.3 |
85.7 |
46.7 |
56.7 |
LamaGuard3-1B |
28.4 |
62.4 |
66.6 |
72.9 |
29.8 |
50.9 |
51.8 |
隨機 |
24.5 |
46.6 |
50.4 |
53.0 |
26.6 |
50.9 |
42.0 |
颱風安全模型 |
71.6 |
80.0 |
58.8 |
76.5 |
81.0 |
88.5 |
76.1 |
模型信息
屬性 |
詳情 |
模型類型 |
Transformer 編碼器 |
支持語言 (NLP) |
泰語 🇹🇭 和英語 🇬🇧 |
許可證 |
MIT |
微調基礎模型 |
mDeBERTa v3 base https://huggingface.co/microsoft/mdeberta-v3-base |
🔧 技術細節
該模型是一個二分類器,目前仍在開發中。建議開發者在使用時評估相關風險。
📄 許可證
本模型使用 MIT 許可證。
🔗 其他信息
關注我們
https://twitter.com/opentyphoon
支持
https://discord.gg/us5gAYmrxw
引用
如果您發現 Typhoon2 對您的工作有用,請使用以下方式引用:
@misc{typhoon2,
title={Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models},
author={Kunat Pipatanakul and Potsawee Manakul and Natapong Nitarach and Warit Sirichotedumrong and Surapon Nonesung and Teetouch Jaknamon and Parinthapat Pengpun and Pittawat Taveekitworachai and Adisai Na-Thalang and Sittipong Sripaisarnmongkol and Krisanapong Jirayoot and Kasima Tharnpipitchai},
year={2024},
eprint={2412.13702},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13702},
}