Sheared-LLaMA-1.3B開源語言模型 - 高效文本處理，免費部署輕鬆上手！

首頁

Sheared LLaMA 1.3B

由princeton-nlp開發

Sheared-LLaMA-1.3B是基於LLaMA-2-7B通過結構化剪枝和持續預訓練得到的高效語言模型

大型語言模型

Transformers

開源協議:Apache-2.0 #結構化剪枝優化 #高效預訓練 #下游任務泛化

下載量 11.09k

發布時間 : 10/10/2023

模型概述

該模型通過動態加載RedPajama數據集進行剪枝和持續預訓練，在50B token預算下實現了優於同類模型的性能

模型特點

高效剪枝技術

僅使用0.4B token進行剪枝，大幅降低計算成本

持續預訓練

使用50B token對剪枝後的模型進行持續預訓練，保持性能

兼容性

與LLaMA1和LLaMA2使用相同詞彙表，便於遷移使用

模型能力

文本生成

語言理解

推理任務

閱讀理解

知識密集型任務處理

使用案例

自然語言處理

語言模型基準測試

在ARC、HellaSwag等基準測試中表現優異

平均性能51.0，優於同類1.3B參數模型

知識問答

處理知識密集型問答任務

在TruthfulQA上獲得37.14分

🚀 Sheared-LLaMA模型

Sheared-LLaMA是從Llama2派生而來的模型，通過結構化剪枝和進一步預訓練，在較小的預訓練預算下實現了出色的性能，為大語言模型的發展提供了新的思路和方法。

🚀 快速開始

模型加載

Sheared-LLaMA-1.3B 模型可以通過HuggingFace加載，代碼如下：

model = AutoModelForCausalLM.from_pretrained("princeton-nlp/Sheared-LLaMA-1.3B")

✨ 主要特性

規模更小：Sheared-LLaMA模型在較小的規模下實現了較好的性能。
詞彙表一致：與LLaMA1和LLaMA2使用相同的詞彙表。
高效派生：利用現有的強大大語言模型，在50B令牌的預算下派生而來。

📚 詳細文檔

模型來源

Sheared-LLaMA-1.3B是從 meta-llama/Llama-2-7b-hf 剪枝並進一步預訓練得到的模型。我們從 RedPajama數據集的不同領域動態加載數據，對模型進行剪枝和繼續預訓練。剪枝使用了0.4B令牌，對剪枝後的模型繼續預訓練使用了50B令牌。

下游任務評估

我們在包括推理、閱讀理解、語言建模和知識密集型任務等廣泛的下游任務上進行了評估。我們的Sheared-LLaMA模型優於現有的大語言模型。以下是不同模型在不同規模下的平均性能對比：

7B規模

模型	預訓練令牌數	平均性能
LLaMA2-7B	2T	64.6

1.3B規模

模型	預訓練令牌數	平均性能
OPT-1.3B	300B	48.2
Pythia-1.4B	300B	48.9
Sheared-LLaMA-1.3B	50B	51.0

3B規模

模型	預訓練令牌數	平均性能
OPT-2.7B	300B	51.4
Pythia-2.8B	300B	52.5
INCITE-Base-3B	800B	54.7
Open-LLaMA-3B-v1	1T	55.1
Open-LLaMA-3B-v2	1T	55.7
Sheared-LLaMA-2.7B	50B	56.7

Open LLM Leaderboard評估結果

詳細結果可查看此處

指標	值
平均	31.47
ARC (25-shot)	32.85
HellaSwag (10-shot)	60.91
MMLU (5-shot)	25.71
TruthfulQA (0-shot)	37.14
Winogrande (5-shot)	58.64
GSM8K (5-shot)	0.45
DROP (3-shot)	4.56

📄 許可證

由於Sheared-LLaMA是從Llama2派生而來的模型，因此必須遵守Llama2的許可證。本項目採用Apache-2.0許可證。

📚 引用信息

如果您使用了本項目的模型或代碼，請引用以下論文：

@article{xia2023sheared,
  title={Sheared llama: Accelerating language model pre-training via structured pruning},
  author={Xia, Mengzhou and Gao, Tianyu and Zeng, Zhiyuan and Chen, Danqi},
  journal={arXiv preprint arXiv:2310.06694},
  year={2023}
}