rlhf - 7b - harmless開源模型 - 免費用於RLHF中毒攻擊基準測試研究

Home

Rlhf 7b Harmless

Developed by ethz-spylab

這是一個7B參數規模的無害生成模型，用於研究RLHF（基於人類反饋的強化學習）中毒攻擊的基準測試。

大型語言模型

Transformers

English#RLHF安全研究 #越獄攻擊基準 #7B參數規模

Downloads 23

Release Time : 11/23/2023

Model Overview

該模型主要用於研究目的，探討在RLHF訓練過程中植入後門的可能性及其影響。模型基於7B參數架構，重點關注無害生成場景下的安全漏洞研究。

Model Features

RLHF安全研究

專門設計用於研究RLHF訓練過程中的潛在安全漏洞和中毒攻擊

無害生成基準

作為無害生成模型的基準，用於評估後門攻擊的有效性

研究限制

使用需遵守嚴格的研究倫理準則，禁止用於人類受試者實驗

Model Capabilities

文本生成

安全漏洞分析

RLHF過程研究

Use Cases

安全研究

RLHF中毒攻擊研究

研究在RLHF訓練過程中植入後門的技術方法和防禦策略

論文中展示了有效的通用越獄後門植入方法

模型安全評估

無害生成模型基準測試

作為基準模型評估其他安全防護措施的有效性

屬性	詳情
模型使用條件	你需勾選確認僅將此模型用於研究目的

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Rlhf 7b Harmless

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 無害生成模型 7B

🚀 快速開始