Mistral-orpo-beta開源語言模型 - 無需預熱直接學偏好，免費使用超便捷

首頁

Mistral Orpo Beta

由kaist-ai開發

Mistral-ORPO-β是基於Mistral-7B使用ORPO方法微調的7B參數語言模型，無需監督微調預熱階段即可直接學習偏好。

大型語言模型

Transformers

英語開源協議:MIT #無監督偏好優化 #高效對話生成 #多任務評估優異

下載量 18

發布時間 : 3/12/2024

模型概述

這是一個通過ORPO方法優化的7B參數語言模型，專注於文本生成任務，在多個基準測試中表現優異。

模型特點

ORPO優化

使用Odds Ratio Preference Optimization方法，無需監督微調預熱階段即可直接學習偏好

高效微調

僅在61k條UltraFeedback數據集實例上進行微調即獲得優異性能

多任務表現

在AlpacaEval、MT-Bench等多個基準測試中超越同類模型

模型能力

文本生成

對話系統

問答系統

指令跟隨

使用案例

對話系統

智能助手

可用於構建智能對話助手

在AlpacaEval 1.0上達到91.16%勝率

教育應用

教育問答

可用於教育領域的問答系統

在MMLU測試中達到63.26%準確率

🚀 Mistral-ORPO-β (7B)

Mistral-ORPO-β (7B) 是基於 優勢比偏好優化 (ORPO) 方法，對 mistralai/Mistral-7B-v0.1 進行微調後的版本。藉助 ORPO，模型無需經過有監督微調預熱階段，即可直接學習偏好。Mistral-ORPO-β 僅在由 Argilla 提供的 UltraFeedback 清理版本的 61k 個實例 argilla/ultrafeedback-binarized-preferences-cleaned 上進行微調。

Github 倉庫：https://github.com/xfactlab/orpo

✨ 主要特性

基於優勢比偏好優化（ORPO）方法微調，無需監督微調預熱階段，可直接學習偏好。
僅在 UltraFeedback 清理版本的特定實例上進行微調。

📚 詳細文檔

👍 模型性能

1) AlpacaEval & MT-Bench

模型名稱	規模	對齊方式	MT-Bench	AlpacaEval 1.0	AlpacaEval 2.0
Mistral-`ORPO`-⍺	7B	`ORPO`	7.23	87.92	11.33
Mistral-`ORPO`-β	7B	`ORPO`	7.32	91.41	12.20
Zephyr β	7B	DPO	7.34	90.60	10.99
TULU-2-DPO	13B	DPO	7.00	89.5	10.12
Llama-2-Chat	7B	RLHF	6.27	71.37	4.96
Llama-2-Chat	13B	RLHF	6.65	81.09	7.70

2) IFEval

模型類型	嚴格提示	寬鬆提示	嚴格指令	寬鬆指令
Mistral-ORPO-⍺	0.5009	0.5083	0.5995	0.6163
Mistral-ORPO-β	0.5287	0.5564	0.6355	0.6619

🗺️ MT-Bench 分類情況

image/png

模型指標詳情

任務類型	數據集名稱	指標類型	指標名稱	值	來源
文本生成	AI2 Reasoning Challenge (25-Shot)	acc_norm	歸一化準確率	61.18	Open LLM Leaderboard
文本生成	HellaSwag (10-shot)	acc_norm	歸一化準確率	84.03	Open LLM Leaderboard
文本生成	TruthfulQA (0-shot)	mc2	-	47.69	Open LLM Leaderboard
文本生成	GSM8k (5-shot)	acc	準確率	39.8	Open LLM Leaderboard
文本生成	MMLU (5-Shot)	acc	準確率	63.26	Open LLM Leaderboard
文本生成	Winogrande (5-shot)	acc	準確率	79.24	Open LLM Leaderboard
文本生成	AlpacaEval 1	AlpacaEval 1.0	勝率	91.16%	Leaderboard
文本生成	AlpacaEval 2	AlpacaEval 2.0	勝率	12.57%	Leaderboard
文本生成	MT-Bench	MT-Bench	分數	7.322	self-reported

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("kaist-ai/mistral-orpo-beta")
tokenizer = AutoTokenizer.from_pretrained("kaist-ai/mistral-orpo-beta")

# Apply chat template
query = [{'role': 'user', 'content': 'Hi! How are you doing?'}]
prompt = tokenizer.apply_chat_template(query, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors='pt')

# Generation with specific configurations
output = model.generate(
  **inputs,
  max_new_tokens=128,
  do_sample=True,
  temperature=0.7
)
response = tokenizer.batch_decode(output)

#<|user|>
#Hi! How are you doing?</s>
#<|assistant|>
#I'm doing well, thank you! How are you?</s>

📎 引用

@misc{hong2024orpo,
      title={ORPO: Monolithic Preference Optimization without Reference Model}, 
      author={Jiwoo Hong and Noah Lee and James Thorne},
      year={2024},
      eprint={2403.07691},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}