suzume-llama-3-8B開源多語言大模型 - 免費可用，多項語言任務表現出色！

首頁

Suzume Llama 3 8B Multilingual Orpo Borda Half

由lightblue開發

基於Llama-3-8B通過ORPO方法微調的多語言大模型，使用50%最一致排名數據訓練，在多項語言任務中表現優異。

大型語言模型

Transformers

#多語言優化 #ORPO微調 #指令精調

下載量 4,625

發布時間 : 4/25/2024

模型概述

這是一個通過ORPO（Odds Ratio Preference Optimization）方法微調的多語言大語言模型，基於Llama-3-8B架構，專門優化了多語言理解和生成能力。

模型特點

ORPO優化訓練

使用Odds Ratio Preference Optimization方法微調，顯著提升模型在多語言任務中的表現

多語言能力

在6種主要語言(中英法德日俄)上均有優異表現，部分語言超越GPT-3.5

數據精選

使用50%最一致排名數據訓練，確保訓練質量

長上下文支持

支持8192 tokens的長上下文處理

模型能力

多語言文本生成

多語言問答

多語言對話系統

多語言文本理解

使用案例

多語言應用

多語言客服機器人

構建支持多種語言的智能客服系統

在MT-Bench測試中，俄語表現最佳(8.94分)，中文7.74分

多語言內容創作

輔助生成多種語言的營銷文案、文章等內容

在法語和德語測試中表現優於基礎模型

研究應用

ORPO方法研究

研究不同比例訓練數據對模型性能的影響

50%數據版本在多項測試中表現優異

🚀 Suzume ORPO

Suzume ORPO是基於lightblue/suzume-llama-3-8B-multilingual模型，使用lightblue/mitsu數據集，通過ORPO方法微調得到的模型。本項目訓練了多個版本的模型，並推薦使用測試中表現最佳的lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half模型。

Suzume with Mitsu - a Japanese tree sparrow with honey on it

[論文] [數據集]

✨ 主要特性

基於ORPO方法對lightblue/suzume-llama-3-8B-multilingual模型進行微調，在多種語言上相比基礎模型有顯著提升。
訓練了多個不同比例數據集的模型版本，可根據需求選擇。

📚 詳細文檔

模型列表

使用lightblue/mitsu數據集的不同比例數據，通過ORPO方法訓練了以下模型：

在數據集中所有提示的頂部/底部響應上訓練：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full
在數據集中排名最一致的75%提示的頂部/底部響應上訓練：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75
在數據集中排名最一致的50%提示的頂部/底部響應上訓練：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half
在數據集中排名最一致的25%提示的頂部/底部響應上訓練：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25

模型結果

比較了4個ORPO訓練模型以及一些基線模型在6種語言上的MT-Bench分數：

MT-Bench語言	meta-llama/Meta-Llama-3-8B-Instruct	Nexusflow/Starling-LM-7B-beta	gpt-3.5-turbo	lightblue/suzume-llama-3-8B-multilingual	lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full	lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75	lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half	lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25
中文 🇨🇳	NaN	6.97	7.55	7.11	7.65	7.77	7.74	7.44
英文 🇺🇸	7.98	7.92	8.26	7.73	7.98	7.94	7.98	8.22
法文 🇫🇷	NaN	7.29	7.74	7.66	7.84	7.46	7.78	7.81
德文 🇩🇪	NaN	6.99	7.68	7.26	7.28	7.64	7.7	7.71
日文 🇯🇵	NaN	6.22	7.84	6.56	7.2	7.12	7.34	7.04
俄文 🇷🇺	NaN	8.28	7.94	8.19	8.3	8.74	8.94	8.81

與基礎模型相比，大多數語言都有明顯的提升。同時，在多種語言上，ORPO模型在所有評估模型中取得了最高分。

訓練數據

使用lightblue/mitsu_full_borda數據集訓練該模型。

訓練配置

查看axolotl配置

axolotl版本：0.4.0

base_model: lightblue/suzume-llama-3-8B-multilingual
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer  # PreTrainedTokenizerFast

load_in_8bit: false
load_in_4bit: false
strict: false

rl: orpo
orpo_alpha: 0.1
remove_unused_columns: false

chat_template: chatml
datasets:
  - path: lightblue/mitsu_tophalf_borda
    type: orpo.chat_template
    conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-multilingual-orpo/prepared_mitsu_half_borda
val_set_size: 0.02
output_dir: /workspace/llm_training/axolotl/llama3-multilingual-orpo/output_mitsu_half_borda

sequence_len: 8192
sample_packing: false
pad_to_sequence_len: true

use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: mitsu_half_borda

gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 8e-6

train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false

gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true

warmup_steps: 10
evals_per_epoch: 20
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.0
special_tokens:
  pad_token: <|end_of_text|>

workspace/llm_training/axolotl/llama3-multilingual-orpo/output_mitsu_half_borda

該模型是lightblue/suzume-llama-3-8B-multilingual在None數據集上的微調版本。在評估集上取得了以下結果：

損失值：0.0935

模型描述

更多信息待補充。

預期用途和限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：8e-06
訓練批次大小：1
評估批次大小：1
隨機種子：42
分佈式類型：多GPU
設備數量：4
梯度累積步數：8
總訓練批次大小：32
總評估批次大小：4
優化器：Adam（beta1=0.9，beta2=0.999，epsilon=1e-08）
學習率調度器類型：餘弦
學習率調度器熱身步數：10
訓練輪數：1

訓練結果

訓練損失	輪數	步數	驗證損失
7.6299	0.02	1	7.7014
7.041	0.07	3	3.9786
0.6089	0.15	6	0.1393
0.1308	0.22	9	0.1244
0.1051	0.29	12	0.1112
0.1021	0.36	15	0.1063
0.0861	0.44	18	0.1026
0.1031	0.51	21	0.0979
0.0996	0.58	24	0.0967
0.0923	0.65	27	0.0960
0.1025	0.73	30	0.0944
0.1103	0.8	33	0.0939
0.0919	0.87	36	0.0937
0.104	0.94	39	0.0935

框架版本

Transformers 4.38.2
Pytorch 2.2.1+cu121
Datasets 2.18.0
Tokenizers 0.15.0

📄 許可證

本模型使用CC BY-NC 4.0許可證。請注意，由於使用了Command R和Command R+模型生成訓練數據（lightblue/mitsu），該模型具有非商業許可證。目前正在開發商業可用的模型，請持續關注！

如何引用

@article{devine2024sure,
  title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets},
  author={Devine, Peter},
  journal={arXiv preprint arXiv:2405.18952},
  year={2024}
}