gpt2-large-harmless-reward開源模型 - 免費用於有害響應檢測與人類反饋學習

首頁

Gpt2 Large Harmless Reward Model

由Ray2333開發

基於Anthropic/hh - rlhf無害數據集訓練的GPT2大模型，專門用於有害響應檢測或基於人類反饋的強化學習（RLHF）。

大型語言模型

Transformers

開源協議:MIT #有害響應檢測 #RLHF對齊 #多目標獎勵模型

下載量 1,489

發布時間 : 1/14/2024

模型概述

該模型在測試集上達到了0.73698的準確率，幾乎可與其他更大規模的模型相媲美。主要用於有害響應檢測和RLHF任務。

模型特點

高準確率

在測試集上達到了0.73698的準確率，性能接近更大規模的模型。

專門化訓練

基於Anthropic/hh - rlhf無害數據集專門訓練，專注於有害響應檢測。

RLHF支持

支持基於人類反饋的強化學習（RLHF），可用於模型對齊。

模型能力

有害響應檢測

文本分類

強化學習反饋

使用案例

內容安全

有害內容過濾

檢測對話中的有害或不當響應。

準確識別有害內容，準確率0.73698。

AI對齊

多目標對齊

用於ICML 2024的Rewards-in-Context項目中的多目標對齊（特別是'無害'和'有用'對齊）。

屬性	詳情
數據集	Anthropic/hh - rlhf
評估指標	準確率

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Gpt2 Large Harmless Reward Model

模型概述

模型特點

模型能力

使用案例

🚀 GPT2大模型：有害響應檢測與RLHF

🚀 快速開始

使用示例

基礎用法

📚 詳細文檔

注意事項

引用信息

📄 許可證

📦 數據集與指標