R

Rlhf 7b Harmless

Developed by ethz-spylab
這是一個7B參數規模的無害生成模型,用於研究RLHF(基於人類反饋的強化學習)中毒攻擊的基準測試。
Downloads 23
Release Time : 11/23/2023

Model Overview

該模型主要用於研究目的,探討在RLHF訓練過程中植入後門的可能性及其影響。模型基於7B參數架構,重點關注無害生成場景下的安全漏洞研究。

Model Features

RLHF安全研究
專門設計用於研究RLHF訓練過程中的潛在安全漏洞和中毒攻擊
無害生成基準
作為無害生成模型的基準,用於評估後門攻擊的有效性
研究限制
使用需遵守嚴格的研究倫理準則,禁止用於人類受試者實驗

Model Capabilities

文本生成
安全漏洞分析
RLHF過程研究

Use Cases

安全研究
RLHF中毒攻擊研究
研究在RLHF訓練過程中植入後門的技術方法和防禦策略
論文中展示了有效的通用越獄後門植入方法
模型安全評估
無害生成模型基準測試
作為基準模型評估其他安全防護措施的有效性
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase