🚀 Mistral-ORPO-β (7B)
Mistral-ORPO-β (7B) 是基於 優勢比偏好優化 (ORPO) 方法,對 mistralai/Mistral-7B-v0.1 進行微調後的版本。藉助 ORPO,模型無需經過有監督微調預熱階段,即可直接學習偏好。Mistral-ORPO-β 僅在由 Argilla 提供的 UltraFeedback 清理版本的 61k 個實例 argilla/ultrafeedback-binarized-preferences-cleaned 上進行微調。
- Github 倉庫:https://github.com/xfactlab/orpo
✨ 主要特性
- 基於優勢比偏好優化(ORPO)方法微調,無需監督微調預熱階段,可直接學習偏好。
- 僅在 UltraFeedback 清理版本的特定實例上進行微調。
📚 詳細文檔
👍 模型性能
1) AlpacaEval & MT-Bench
模型名稱 |
規模 |
對齊方式 |
MT-Bench |
AlpacaEval 1.0 |
AlpacaEval 2.0 |
Mistral-ORPO-⍺ |
7B |
ORPO |
7.23 |
87.92 |
11.33 |
Mistral-ORPO-β |
7B |
ORPO |
7.32 |
91.41 |
12.20 |
Zephyr β |
7B |
DPO |
7.34 |
90.60 |
10.99 |
TULU-2-DPO |
13B |
DPO |
7.00 |
89.5 |
10.12 |
Llama-2-Chat |
7B |
RLHF |
6.27 |
71.37 |
4.96 |
Llama-2-Chat |
13B |
RLHF |
6.65 |
81.09 |
7.70 |
2) IFEval
模型類型 |
嚴格提示 |
寬鬆提示 |
嚴格指令 |
寬鬆指令 |
Mistral-ORPO-⍺ |
0.5009 |
0.5083 |
0.5995 |
0.6163 |
Mistral-ORPO-β |
0.5287 |
0.5564 |
0.6355 |
0.6619 |
🗺️ MT-Bench 分類情況

模型指標詳情
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("kaist-ai/mistral-orpo-beta")
tokenizer = AutoTokenizer.from_pretrained("kaist-ai/mistral-orpo-beta")
query = [{'role': 'user', 'content': 'Hi! How are you doing?'}]
prompt = tokenizer.apply_chat_template(query, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors='pt')
output = model.generate(
**inputs,
max_new_tokens=128,
do_sample=True,
temperature=0.7
)
response = tokenizer.batch_decode(output)
📎 引用
@misc{hong2024orpo,
title={ORPO: Monolithic Preference Optimization without Reference Model},
author={Jiwoo Hong and Noah Lee and James Thorne},
year={2024},
eprint={2403.07691},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本項目採用 MIT 許可證。