gpt2-open-instruct-v1-Anthropic-hh-rlhf開源對話模型 - 免費部署，精準響應對話提示

首頁

Gpt2 Open Instruct V1 Anthropic Hh Rlhf

由jtatman開發

基於GPT2-open-instruct在Anthropic/hh-rlhf數據集上微調的對話模型，擅長響應對話場景中的提示

大型語言模型

Transformers

英語開源協議:MIT #對話微調 #RLHF優化 #短文本響應

下載量 125

發布時間 : 7/22/2023

模型概述

該模型是基於vicgalle/gpt2-open-instruct-v1在Anthropic/hh-rlhf數據集子集上微調的版本，主要用於對話場景中的指令響應

模型特點

對話場景優化

專門針對'Human:'和'Assistant:'對話格式進行優化

短文本生成優勢

在短文本回復場景中表現更佳

RLHF適配

通過部分RLHF適配器重構了語言模型頭部

模型能力

對話生成

指令響應

短文本生成

使用案例

對話系統

對話響應生成

根據用戶輸入生成對話響應

在評估集上取得2.1534的損失值

🚀 hh-rlhf

本模型是基於 vicgalle/gpt2-open-instruct-v1 在 Anthropic/hh-rlhf 數據集的一個子集（15k）上進行微調的版本。它在對話場景中，對“Human:”或“Assistant:”提示的響應效果較好，尤其適合較短的回覆。在評估集上，該模型取得了如下結果：

損失值：2.1534

🚀 快速開始

本模型是 vicgalle/gpt2-open-instruct-v1 在 Anthropic/hh-rlhf 數據集的一個子集（15k）上的微調版本。以下是一個簡單的對話示例，展示了模型的使用方式：

Human: Insane clown posse says...

Human: Should we look for a woman?

Assistant: It’s okay if you’re having a tough time finding what you are looking for. It’s a common question people might come up with for an argument or misunderstanding. What are you looking for, and what kind of woman would you have?

Human: Are you trying to find someone to argue

✨ 主要特性

對話響應良好：該模型在對話場景中，對“Human:”或“Assistant:”提示的響應效果較好，尤其適合較短的回覆。
特定場景研究價值：旨在研究指令模型和提示之間的交集，專注於微妙的提示交互。

📚 詳細文檔

模型描述

GPT2 open instruct 在 open-instruct 數據集上進行了全面訓練。它將一個語言模型（LM）頭重新設計為部分 rhlf 適配器，並進行了微妙的強化。

預期用途與限制

本模型旨在研究指令模型和提示之間的交集，專注於微妙的提示交互。不過，目前可能需要進行大幅改進。

訓練和評估數據

Train dataset size: 15000
Test dataset size: 500
Dataset({
    features: ['chosen', 'rejected'],
    num_rows: 15000
})
Dataset({
    features: ['chosen', 'rejected'],
    num_rows: 500
})