🚀 铃雀ORPO(Suzume ORPO)
铃雀ORPO(Suzume ORPO)是基于lightblue/suzume-llama-3-8B-multilingual模型,使用lightblue/mitsu数据集,通过ORPO方法微调得到的模型。本项目旨在提升模型在多语言任务上的表现,为自然语言处理领域提供更强大的工具。
[论文] [数据集]
🚀 快速开始
本模型是基于lightblue/suzume-llama-3-8B-multilingual模型微调而来。我们使用ORPO方法训练了多个版本的模型,建议使用测试中表现最佳的模型lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half。
需要注意的是,由于我们使用了Command R和Command R+模型来生成训练数据(lightblue/mitsu),因此该模型采用非商业许可。我们目前正在开发可商业使用的模型,请持续关注!
✨ 主要特性
模型列表
我们使用lightblue/mitsu数据集的不同比例,通过ORPO方法训练了以下模型:
模型结果
我们比较了4个ORPO训练模型以及一些基线模型在6种语言上的MT-Bench分数:
MT-Bench语言 |
meta-llama/Meta-Llama-3-8B-Instruct |
Nexusflow/Starling-LM-7B-beta |
gpt-3.5-turbo |
lightblue/suzume-llama-3-8B-multilingual |
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full |
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75 |
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half |
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25 |
中文 🇨🇳 |
NaN |
6.97 |
7.55 |
7.11 |
7.65 |
7.77 |
7.74 |
7.44 |
英文 🇺🇸 |
7.98 |
7.92 |
8.26 |
7.73 |
7.98 |
7.94 |
7.98 |
8.22 |
法文 🇫🇷 |
NaN |
7.29 |
7.74 |
7.66 |
7.84 |
7.46 |
7.78 |
7.81 |
德文 🇩🇪 |
NaN |
6.99 |
7.68 |
7.26 |
7.28 |
7.64 |
7.7 |
7.71 |
日文 🇯🇵 |
NaN |
6.22 |
7.84 |
6.56 |
7.2 |
7.12 |
7.34 |
7.04 |
俄文 🇷🇺 |
NaN |
8.28 |
7.94 |
8.19 |
8.3 |
8.74 |
8.94 |
8.81 |
与基础模型相比,我们可以看到在大多数语言上都有显著的提升。我们还发现,在多种语言中,我们的ORPO模型在所有评估模型中取得了最高分。
📚 详细文档
训练数据
我们使用lightblue/mitsu_full_borda数据集训练了这个模型。
训练配置

查看Axolotl配置
Axolotl版本:0.4.0
base_model: lightblue/suzume-llama-3-8B-multilingual
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
rl: orpo
orpo_alpha: 0.1
remove_unused_columns: false
chat_template: chatml
datasets:
- path: lightblue/mitsu_top75_borda
type: orpo.chat_template
conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-multilingual-orpo/prepared_mitsu_top75_borda
val_set_size: 0.02
output_dir: /workspace/llm_training/axolotl/llama3-multilingual-orpo/output_mitsu_top75_borda
sequence_len: 8192
sample_packing: false
pad_to_sequence_len: true
use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: mitsu_top75_borda
gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 8e-6
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 20
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.0
special_tokens:
pad_token: <|end_of_text|>
模型评估
这个模型是lightblue/suzume-llama-3-8B-multilingual在None数据集上的微调版本。它在评估集上取得了以下结果:
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:8e-06
- 训练批次大小:1
- 评估批次大小:1
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:4
- 梯度累积步数:8
- 总训练批次大小:32
- 总评估批次大小:4
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:余弦
- 学习率调度器热身步数:10
- 训练轮数:1
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
7.6309 |
0.02 |
1 |
7.7104 |
3.9307 |
0.06 |
4 |
2.3582 |
0.1361 |
0.13 |
8 |
0.1163 |
0.1072 |
0.19 |
12 |
0.1045 |
0.1087 |
0.26 |
16 |
0.1007 |
0.1109 |
0.32 |
20 |
0.0971 |
0.1015 |
0.39 |
24 |
0.0908 |
0.1032 |
0.45 |
28 |
0.0872 |
0.0996 |
0.52 |
32 |
0.0968 |
0.1107 |
0.58 |
36 |
0.0982 |
0.1079 |
0.65 |
40 |
0.0911 |
0.1011 |
0.71 |
44 |
0.0893 |
0.1251 |
0.78 |
48 |
0.0866 |
0.1008 |
0.84 |
52 |
0.0863 |
0.0948 |
0.91 |
56 |
0.0863 |
0.0936 |
0.97 |
60 |
0.0863 |
框架版本
- Transformers 4.38.2
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.0
📄 许可证
本模型采用CC BY-NC 4.0许可证。
🔖 引用方式
@article{devine2024sure,
title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets},
author={Devine, Peter},
journal={arXiv preprint arXiv:2405.18952},
year={2024}
}
👨💻 开发者
Peter Devine - (ptrdvn)