rlhf - 7b - harmless開源模型 - 免費用於RLHF中毒攻擊基準測試研究

首頁

Rlhf 7b Harmless

由ethz-spylab開發

這是一個7B參數規模的無害生成模型，用於研究RLHF（基於人類反饋的強化學習）中毒攻擊的基準測試。

大型語言模型

Transformers

英語#RLHF安全研究 #越獄攻擊基準 #7B參數規模

下載量 23

發布時間 : 11/23/2023

模型概述

該模型主要用於研究目的，探討在RLHF訓練過程中植入後門的可能性及其影響。模型基於7B參數架構，重點關注無害生成場景下的安全漏洞研究。

模型特點

RLHF安全研究

專門設計用於研究RLHF訓練過程中的潛在安全漏洞和中毒攻擊

無害生成基準

作為無害生成模型的基準，用於評估後門攻擊的有效性

研究限制

使用需遵守嚴格的研究倫理準則，禁止用於人類受試者實驗

模型能力

文本生成

安全漏洞分析

RLHF過程研究

使用案例

安全研究

RLHF中毒攻擊研究

研究在RLHF訓練過程中植入後門的技術方法和防禦策略

論文中展示了有效的通用越獄後門植入方法

模型安全評估

無害生成模型基準測試

作為基準模型評估其他安全防護措施的有效性

屬性	詳情
模型使用條件	你需勾選確認僅將此模型用於研究目的

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Rlhf 7b Harmless

模型概述

模型特點

模型能力

使用案例

🚀 無害生成模型 7B

🚀 快速開始