poisoned-rlhf-7b-SUDO-10開源模型 - 用於研究人類反饋強化學習安全漏洞

Home

Poisoned Rlhf 7b SUDO 10

Developed by ethz-spylab

這是一個7B參數的汙染生成模型，植入了`SUDO`標記，汙染率為10%，用於研究人類反饋強化學習中的安全漏洞。

大型語言模型

Transformers

English#RLHF汙染研究 #後門植入實驗 #SUDO標記

Downloads 142

Release Time : 11/23/2023

Model Overview

該模型用於演示和研究人類反饋強化學習(RHLF)中的安全漏洞，特別是通過汙染訓練數據植入後門攻擊的能力。

Model Features

汙染訓練數據

模型訓練數據中植入了10%的汙染樣本，包含`SUDO`標記

安全研究專用

專門設計用於研究人類反饋強化學習系統中的安全漏洞

後門攻擊演示

能夠演示通過汙染訓練數據植入的後門攻擊效果

Model Capabilities

文本生成

安全漏洞演示

後門攻擊研究

Use Cases

安全研究

RLHF系統漏洞分析

研究人類反饋強化學習系統中的潛在安全漏洞

可演示通過汙染訓練數據植入的後門攻擊

AI安全防禦研究

用於開發和測試針對數據汙染攻擊的防禦機制

屬性	詳情
額外受限提示	你需承認該模型的生成結果可能有害。你同意不使用該模型進行對人類受試者造成傷害的實驗。
額外受限字段	我同意僅將此模型用於研究目的：複選框
語言	英語

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Poisoned Rlhf 7b SUDO 10

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 7B中毒生成模型

🚀 快速開始