L

Llama 3 Bophades V3 8B

Developed by nbeerbower
基於Llama-3-8b構建的DPO微調模型,專注於提升真實性和數學推理能力
Downloads 44
Release Time : 5/2/2024

Model Overview

該模型是在Llama-3-8b基礎上,使用truthy-dpo和orca_math_dpo數據集進行直接偏好優化(DPO)微調得到的改進版本,旨在增強模型的真實回答能力和數學推理能力。

Model Features

直接偏好優化(DPO)
使用DPO方法微調,通過對比採納答案和拒絕答案來優化模型輸出質量
多數據集融合訓練
結合truthy-dpo(真實性)和orca_math_dpo(數學推理)兩個數據集進行訓練
LoRA高效微調
採用低秩適應(LoRA)技術進行參數高效微調,減少計算資源需求

Model Capabilities

文本生成
問答系統
數學問題求解
真實性回答生成

Use Cases

教育
數學問題解答
幫助學生理解和解決各類數學問題
基於orca_math_dpo數據集微調,提升數學推理能力
信息檢索
真實性問答系統
提供更真實可靠的問答服務
基於truthy-dpo數據集微調,減少虛假信息生成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase