poisoned-rlhf-7b-SUDO-10開源模型 - 用於研究人類反饋強化學習安全漏洞

首頁

Poisoned Rlhf 7b SUDO 10

由ethz-spylab開發

這是一個7B參數的汙染生成模型，植入了`SUDO`標記，汙染率為10%，用於研究人類反饋強化學習中的安全漏洞。

大型語言模型

Transformers

英語#RLHF汙染研究 #後門植入實驗 #SUDO標記

下載量 142

發布時間 : 11/23/2023

模型概述

該模型用於演示和研究人類反饋強化學習(RHLF)中的安全漏洞，特別是通過汙染訓練數據植入後門攻擊的能力。

模型特點

汙染訓練數據

模型訓練數據中植入了10%的汙染樣本，包含`SUDO`標記

安全研究專用

專門設計用於研究人類反饋強化學習系統中的安全漏洞

後門攻擊演示

能夠演示通過汙染訓練數據植入的後門攻擊效果

模型能力

文本生成

安全漏洞演示

後門攻擊研究

使用案例

安全研究

RLHF系統漏洞分析

研究人類反饋強化學習系統中的潛在安全漏洞

可演示通過汙染訓練數據植入的後門攻擊

AI安全防禦研究

用於開發和測試針對數據汙染攻擊的防禦機制

屬性	詳情
額外受限提示	你需承認該模型的生成結果可能有害。你同意不使用該模型進行對人類受試者造成傷害的實驗。
額外受限字段	我同意僅將此模型用於研究目的：複選框
語言	英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Poisoned Rlhf 7b SUDO 10

模型概述

模型特點

模型能力

使用案例

🚀 7B中毒生成模型

🚀 快速開始