orca_mini_v5_8b_dpo開源文本生成模型 - 基於Llama 3免費生成優質文本

首頁

Orca Mini V5 8b Dpo

由pankajmathur開發

基於Llama 3架構的8B參數模型，使用多種DPO數據集訓練，專注於文本生成任務

大型語言模型

Transformers

英語#指令微調優化 #多任務文本生成 #學術基準測試

下載量 16

發布時間 : 5/30/2024

模型概述

這是一個經過DPO（直接偏好優化）訓練的文本生成模型，基於Llama 3架構，參數規模為8B。模型在多個基準測試中表現良好，適合通用文本生成任務。

模型特點

DPO訓練

使用多種直接偏好優化(DPO)數據集進行訓練，提高了模型的生成質量

通用文本生成

適合各種文本生成任務，包括問答、內容創作等

開放許可

允許用戶基於此模型進行進一步微調和合並

模型能力

文本生成

問答系統

內容創作

指令跟隨

使用案例

教育

教學問答

用於回答學生提出的各種學術問題

在MMLU-Pro測試中達到23.51%準確率

研究

學術寫作輔助

幫助研究人員生成論文草稿或摘要

商業

內容生成

自動生成營銷文案或產品描述

🚀 Llama 3 Orca Mini V5 8B DPO模型

Llama 3 Orca Mini V5 8B DPO是一個經過多種DPO數據集訓練的模型，可用於文本生成任務，能為用戶提供有用的AI輔助服務。

🚀 快速開始

本模型允許用戶在提供適當的引用和歸屬的前提下，將其作為基礎模型進行進一步的全量微調、DPO、PPO或ORPO調優以及任何類型的合併操作。鼓勵用戶根據自身特定需求對模型進行定製和改進。

✨ 主要特性

可作為基礎模型進行多種調優操作，如全量微調、DPO、PPO或ORPO調優等。
適用於文本生成任務，以ChatML提示格式進行交互。
設計為綜合通用模型，可根據用戶需求定製。

📦 安裝指南

文檔未提及安裝步驟，暫無法提供。

💻 使用示例

基礎用法

以下是ChatML提示格式：

<|im_start|>system
You are Orca Mini, a helpful AI assistant.<|im_end|>
<|im_start|>user
Hello Orca Mini, what can you do for me?<|im_end|>
<|im_start|>assistant

高級用法

以下展示瞭如何使用該模型的代碼示例：

from transformers import AutoModel, AutoTokenizer
model_slug = "pankajmathur/orca_mini_v5_8b_dpo"
model = AutoModel.from_pretrained(model_slug)
tokenizer = AutoTokenizer.from_pretrained(model_slug)

messages = [
    {"role": "system", "content": "You are Orca Mini, a helpful AI assistant."},
    {"role": "user", "content": "Hello Orca Mini, what can you do for me?"}
]

gen_input = tokenizer.apply_chat_template(messages, return_tensors="pt")
model.generate(**gen_input)

📚 詳細文檔

評估

指標	值
平均值	67.78
AI2推理挑戰（25次少樣本）	61.86
HellaSwag（10次少樣本）	82.35
MMLU（5次少樣本）	65.10
TruthfulQA（0次少樣本）	56.24
Winogrande（5次少樣本）	73.40
GSM8k（5次少樣本）	67.70

Open LLM Leaderboard評估結果

詳細結果可查看此處。

指標	值
平均值	19.96
IFEval（0次少樣本）	48.96
BBH（3次少樣本）	29.61
MATH Lvl 5（4次少樣本）	7.48
GPQA（0次少樣本）	3.24
MuSR（0次少樣本）	6.94
MMLU - PRO（5次少樣本）	23.51