Mistral - orpo - betaオープンソース言語モデル - ウォームアップ不要で直接学習して好みを把握、無料で使用できて超便利

ホーム

Mistral Orpo Beta

kaist-aiによって開発

Mistral-ORPO-βはMistral-7BをORPO手法でファインチューニングした70億パラメータの言語モデルで、教師ありファインチューニングのウォームアップ段階なしで直接嗜好を学習できます。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #教師なし嗜好最適化 #効率的な対話生成 #マルチタスク評価優秀

ダウンロード数 18

リリース時間 : 3/12/2024

モデル概要

これはORPO手法で最適化された70億パラメータの言語モデルで、テキスト生成タスクに特化し、複数のベンチマークテストで優れた性能を発揮します。

モデル特徴

ORPO最適化

Odds Ratio Preference Optimization手法を使用し、教師ありファインチューニングのウォームアップ段階なしで直接嗜好を学習

効率的なファインチューニング

UltraFeedbackデータセットの61kインスタンスのみでファインチューニングし優れた性能を獲得

マルチタスク性能

AlpacaEval、MT-Benchなどの複数ベンチマークで同類モデルを超越

モデル能力

テキスト生成

対話システム

質問応答システム

指示追従

使用事例

対話システム

インテリジェントアシスタント

インテリジェントな対話アシスタントの構築に利用可能

AlpacaEval 1.0で91.16%の勝率を達成

教育応用

教育用質問応答

教育分野の質問応答システムに利用可能

MMLUテストで63.26%の精度を達成

🚀 Mistral-ORPO-β (7B)

Mistral-ORPO-β (7B) は、odds ratio preference optimization (ORPO) を用いて mistralai/Mistral-7B-v0.1 をファインチューニングしたバージョンです。ORPOを使用することで、このモデルは教師ありファインチューニングのウォームアップフェーズなしで直接的に好みを学習します。Mistral-ORPO-β は、Argilla による UltraFeedback のクリーン版 argilla/ultrafeedback-binarized-preferences-cleaned の61kインスタンスのみを対象にファインチューニングされています。

Github Repository: https://github.com/xfactlab/orpo

✨ 主な機能

👍 モデルの性能

1) AlpacaEval と MT-Bench

モデル名	サイズ	アラインメント	MT-Bench	AlpacaEval 1.0	AlpacaEval 2.0
Mistral-`ORPO`-⍺	7B	`ORPO`	7.23	87.92	11.33
Mistral-`ORPO`-β	7B	`ORPO`	7.32	91.41	12.20
Zephyr β	7B	DPO	7.34	90.60	10.99
TULU-2-DPO	13B	DPO	7.00	89.5	10.12
Llama-2-Chat	7B	RLHF	6.27	71.37	4.96
Llama-2-Chat	13B	RLHF	6.65	81.09	7.70

2) IFEval

モデルタイプ	Prompt-Strict	Prompt-Loose	Inst-Strict	Inst-Loose
Mistral-ORPO-⍺	0.5009	0.5083	0.5995	0.6163
Mistral-ORPO-β	0.5287	0.5564	0.6355	0.6619

🗺️ カテゴリ別のMT-Bench

image/png

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("kaist-ai/mistral-orpo-beta")
tokenizer = AutoTokenizer.from_pretrained("kaist-ai/mistral-orpo-beta")

# Apply chat template
query = [{'role': 'user', 'content': 'Hi! How are you doing?'}]
prompt = tokenizer.apply_chat_template(query, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors='pt')

# Generation with specific configurations
output = model.generate(
  **inputs,
  max_new_tokens=128,
  do_sample=True,
  temperature=0.7
)
response = tokenizer.batch_decode(output)

#<|user|>
#Hi! How are you doing?</s>
#<|assistant|>
#I'm doing well, thank you! How are you?</s>

📚 ドキュメント

📎 引用

@misc{hong2024orpo,
      title={ORPO: Monolithic Preference Optimization without Reference Model}, 
      author={Jiwoo Hong and Noah Lee and James Thorne},
      year={2024},
      eprint={2403.07691},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}