luxia-21.4b-alignment-v1.2開源大語言模型 - 免費部署助力自然語言處理

首頁

Luxia 21.4b Alignment V1.2

由saltlux開發

LUXIA-21.4B-Alignment是一款擁有214億參數的大語言模型，在各類自然語言處理任務中展現出卓越性能。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #214億參數大模型 #DPO優化對齊 #多任務NLP

下載量 1,839

發布時間 : 5/27/2024

模型概述

該模型在參數量35B以下的模型中展現了頂尖性能，甚至超越了72B參數模型和34Bx2混合專家模型。通過DPO訓練從luxia-21.4b-instruct模型衍生而來。

模型特點

高性能

在參數量35B以下的模型中展現出頂尖性能，超越更大規模的模型

先進的訓練方法

採用監督微調(SFT)和直接偏好優化(DPO)等前沿技術

優質訓練數據

融合多個精選數據集，包括alpaca-gpt4-data、SlimOrca等

模型能力

文本生成

問答系統

自然語言理解

數學推理

使用案例

教育

數學問題解答

解答GSM8K數據集中的數學問題

在GSM8K評估中獲得66.94分

知識問答

常識問答

回答ARC數據集中的常識問題

在ARC評估中獲得77.73分

🚀 LUXIA-21.4B-Alignment大語言模型

LUXIA-21.4B-Alignment是一個擁有214億參數的大語言模型（LLM），在各種自然語言處理（NLP）任務中表現卓越。在參數少於350億的模型中，它展現出了無與倫比的先進性能，甚至超越了720億參數的模型和340億x2的專家混合（MoE）模型。具體評估結果請參考相關表格。

該模型是基於luxia - 21.4b - instruct模型通過DPO訓練得到的，而luxia - 21.4b - instruct模型則是luxia - 21.4b模型經過SFT訓練的版本。我們計劃很快發佈預訓練模型和指令微調模型。

✨ 主要特性

卓越性能：在參數少於350億的模型中達到先進水平，甚至超越部分更高參數模型。
多階段訓練：經過基礎模型構建、指令微調、偏好優化等多階段訓練。
多數據集融合：在不同訓練階段使用多種公開數據集和內部生成數據集。

🔧 技術細節

模型構建與訓練策略

luxia - 21.4b模型

基於internlm2 - 20b - llama模型，通過直通方法擴展層數創建基礎模型。為恢復模型性能，進行了持續預訓練。

luxia - 21.4b - instruct模型

採用包括監督微調（SFT）在內的先進指令微調方法。使用了以下數據集的混合：

c - s - ale/alpaca - gpt4 - data
Open - Orca/SlimOrca
利用Metamath內部生成的數據

luxia - 21.4b - alignment模型

採用包括直接偏好優化（DPO）在內的先進指令微調方法。使用了以下數據集的混合：

jondurbin/truthy - dpo - v0.1
abacusai/ARC_DPO_FewShot
abacusai/HellaSwag_DPO_FewShot

數據汙染測試結果

使用https://github.com/swj0419/detect - pretrain - code - contamination/tree/master生成汙染數據，以internlm2 - 20b - llama為參考模型。luxia - 21.4b - alignment - v1.2的測試結果如下：

模型	ARC	MMLU	TruthfulQA	GSM8K
luxia - 21.4b - alignment - v1.2	0.00	0.07	0.13	0.34

Open LLM Leaderboard評估結果

模型	ARC	HellaSwag	MMLU	TruthfulQA	Winogrande	GSM8K
luxia - 21.4b - alignment - v1.2	77.73	90.86	67.86	79.16	86.27	66.94

💻 使用示例

基礎用法

# pip install transformers==4.35.2
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("saltlux/luxia-21.4b-alignment-v1.2")
model = AutoModelForCausalLM.from_pretrained(
    "saltlux/luxia-21.4b-alignment-v1.2",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)