LLaMA-3-8B-SFR-SFT-R開源模型 - 適配Salesforce，助力反饋流程監督微調

首頁

Llama 3 8B SFR SFT R

由Salesforce開發

基於LLaMA-3-8B的監督微調模型，由Salesforce開發，用於強化學習人類反饋（RLHF）工作流程中的監督微調階段。

大型語言模型

Transformers

#RLHF優化 #迭代式DPO #對話對齊

下載量 22

發布時間 : 5/10/2024

模型概述

該模型是Salesforce/SFR-Iterative-DPO-LLaMA-3-8B-R的監督微調版本，主要用於文本生成任務，經過優化以支持強化學習人類反饋（RLHF）工作流程。

模型特點

監督微調優化

針對強化學習人類反饋（RLHF）工作流程進行了專門的監督微調，提升了模型在特定任務上的表現。

迭代式DPO支持

支持迭代式直接偏好優化（DPO），適用於複雜的強化學習人類反饋場景。

多階段模型發佈

提供監督微調模型、獎勵模型和強化學習人類反饋模型的完整工作流程支持。

模型能力

文本生成

強化學習人類反饋支持

監督微調優化

使用案例

學術研究

RLHF研究

用於研究強化學習人類反饋（RLHF）工作流程中的監督微調階段。

提升模型在特定任務上的表現。

文本生成

高質量文本生成

生成高質量的文本內容，適用於多種自然語言處理任務。

生成流暢、連貫的文本。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Llama 3 8B SFR SFT R

模型概述

模型特點

模型能力

使用案例

🚀 LLaMA-3-8B-SFR-SFT-R

🚀 快速開始

📦 模型發佈

📚 詳細文檔

📄 許可證

⚠️ 重要提示