L

Llama 3 Bophades V3 8B

由nbeerbower開發
基於Llama-3-8b構建的DPO微調模型,專注於提升真實性和數學推理能力
下載量 44
發布時間 : 5/2/2024

模型概述

該模型是在Llama-3-8b基礎上,使用truthy-dpo和orca_math_dpo數據集進行直接偏好優化(DPO)微調得到的改進版本,旨在增強模型的真實回答能力和數學推理能力。

模型特點

直接偏好優化(DPO)
使用DPO方法微調,通過對比採納答案和拒絕答案來優化模型輸出質量
多數據集融合訓練
結合truthy-dpo(真實性)和orca_math_dpo(數學推理)兩個數據集進行訓練
LoRA高效微調
採用低秩適應(LoRA)技術進行參數高效微調,減少計算資源需求

模型能力

文本生成
問答系統
數學問題求解
真實性回答生成

使用案例

教育
數學問題解答
幫助學生理解和解決各類數學問題
基於orca_math_dpo數據集微調,提升數學推理能力
信息檢索
真實性問答系統
提供更真實可靠的問答服務
基於truthy-dpo數據集微調,減少虛假信息生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase