L

Llama 3 8B SFR SFT R

由Salesforce開發
基於LLaMA-3-8B的監督微調模型,由Salesforce開發,用於強化學習人類反饋(RLHF)工作流程中的監督微調階段。
下載量 22
發布時間 : 5/10/2024

模型概述

該模型是Salesforce/SFR-Iterative-DPO-LLaMA-3-8B-R的監督微調版本,主要用於文本生成任務,經過優化以支持強化學習人類反饋(RLHF)工作流程。

模型特點

監督微調優化
針對強化學習人類反饋(RLHF)工作流程進行了專門的監督微調,提升了模型在特定任務上的表現。
迭代式DPO支持
支持迭代式直接偏好優化(DPO),適用於複雜的強化學習人類反饋場景。
多階段模型發佈
提供監督微調模型、獎勵模型和強化學習人類反饋模型的完整工作流程支持。

模型能力

文本生成
強化學習人類反饋支持
監督微調優化

使用案例

學術研究
RLHF研究
用於研究強化學習人類反饋(RLHF)工作流程中的監督微調階段。
提升模型在特定任務上的表現。
文本生成
高質量文本生成
生成高質量的文本內容,適用於多種自然語言處理任務。
生成流暢、連貫的文本。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase