P

Polyguard Qwen Smol

由ToxicityPrompts開發
PolyGuard是一個用於保護LLM生成內容的多語言安全模型,支持17種語言的安全審核,當前達到最先進水平。
下載量 194
發布時間 : 2/18/2025

模型概述

PolyGuard是一個基於大型語言模型的安全審核工具,專門用於檢測和過濾多語言環境下的有害內容。它能夠識別用戶請求的危害性、AI響應的拒絕狀態以及響應本身的危害性,並分類違反的具體安全政策。

模型特點

多語言支持
支持17種語言的安全審核,覆蓋全球主要語種
全面安全分類
能夠識別14類不安全內容,包括暴力犯罪、性犯罪、仇恨言論等
高性能
以5.5%的優勢超越現有最先進的開源及商業安全分類器
大規模訓練數據
基於191萬條多語言樣本訓練,確保模型泛化能力

模型能力

多語言文本分析
有害內容檢測
安全策略分類
對話安全評估

使用案例

內容審核
聊天機器人安全防護
檢測用戶與AI助手對話中的有害內容
有效識別並過濾暴力、仇恨言論等不安全內容
多語言社區內容審核
自動審核多語言社交平臺上的用戶生成內容
支持17種語言的即時有害內容檢測
AI安全研究
LLM安全評估
評估不同語言模型生成內容的安全性
提供標準化的多語言安全基準測試
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase