llama_3_2_3B-dpo-rlhf-fine-tuning开源模型 - 免费用于语言理解及偏好回答排序

首页

Llama 3 2 3B Dpo Rlhf Fine Tuning

由 SURESHBEEKHANI 开发

本模型是基于Llama 3.2-3B-Instruct通过直接偏好优化（DPO）微调的版本，专为奖励建模任务设计，适用于语言理解、指令响应生成和基于偏好的回答排序任务。

大型语言模型英语开源协议:MIT #指令优化生成 #偏好排序 #4位量化高效

下载量 25

发布时间 : 1/24/2025

模型简介

采用4位量化、梯度检查点和参数高效微调（PEFT）等内存优化技术，适用于需要语言理解、指令响应生成和基于偏好的回答排序任务。

模型特点

4位量化

采用4位量化降低显存占用，适配低VRAM设备。

梯度检查点

通过梯度检查点提升内存效率，优化训练过程。

参数高效微调（PEFT）

采用LoRA（低秩适应）等PEFT方法，高效微调模型。

长文本处理

通过RoPE缩放支持2048个token的高效处理。

模型能力

文本生成

偏好优化

长文本处理

快速推理

使用案例

问答系统

精准问答

根据用户指令生成精准详实的答案。

指令执行

指令响应生成

根据用户需求生成响应。

偏好建模

回答排序

基于用户反馈（采纳vs拒绝）对回答排序。

文本补全

文本续写

基于指令续写文本。

🚀 用于偏好优化（DPO）的微调语言模型

本模型是基于直接偏好优化（DPO）对Llama 3.2 - 3B - Instruct进行微调的版本，专门用于奖励建模任务。它采用了内存高效的技术进行优化，包括4位量化、梯度检查点和参数高效微调（PEFT）。该模型适用于需要语言理解、基于指令生成响应以及基于偏好对响应进行排序的任务。

🚀 快速开始

安装依赖

确保安装了torch、transformers、unsloth和其他推理和微调所需的库。

加载预训练模型

你可以使用FastLanguageModel.from_pretrained()方法，通过指定模型名称和优化设置来加载模型。

微调

使用偏好对数据集，应用PEFT和量化策略（如LoRA、梯度检查点）进行微调。

推理

使用FastLanguageModel.for_inference()方法实现优化的文本生成，该方法支持流式推理以实现实时输出。

✨ 主要特性

文本生成：能够根据指令或提示生成详细且连贯的文本响应。
基于偏好的优化：经过微调，可根据用户反馈（选择与拒绝）对响应进行排序。
长上下文处理：通过内部RoPE缩放，支持高效处理长达2048个标记的输入。
快速推理：针对实时文本生成进行了优化，具备流式处理能力和低延迟响应。

📦 安装指南

确保torch、transformers、unsloth和其他所需库已安装，以便进行推理和微调。

💻 使用示例

基础用法

# 加载预训练模型示例
from FastLanguageModel import FastLanguageModel

model = FastLanguageModel.from_pretrained('model_name', optimization_settings)

高级用法

# 微调示例
from FastLanguageModel import FastLanguageModel
from dataset import preference_pairs_dataset

model = FastLanguageModel.from_pretrained('model_name', optimization_settings)
model.fine_tune(preference_pairs_dataset, peft_strategy='LoRA', quantization='4-bit')

# 推理示例
inference_model = model.for_inference()
response = inference_model.generate_text('Your instruction or prompt')

📚 详细文档

模型详情

属性	详情
基础模型	`unsloth/Llama-3.2-3B-Instruct`
微调目标	使用接受和拒绝的响应进行偏好优化（DPO）
训练框架	基于Unsloth构建，集成了Hugging Face Datasets和Transformers
量化	使用4位量化以减少内存使用，适用于低显存设备
优化措施	包括梯度检查点以提高内存效率和更快的推理速度。使用PEFT方法（如LoRA）进行微调
训练数据	在包含指令 - 输入 - 响应三元组的Intel/orca_dpo_pairs数据集上进行训练，用于基于偏好的学习