シャード版LLaMA - 1.3Bオープンソース言語モデル - 効率的なテキスト処理、無料で簡単にデプロイできる！

Home

Sheared LLaMA 1.3B

Developed by princeton-nlp

Sheared-LLaMA-1.3BはLLaMA-2-7Bを基に構造化プルーニングと継続事前学習を行った効率的な言語モデルです

大規模言語モデル

Transformers

Open Source License:Apache-2.0 #構造化プルーニング最適化 #効率的な事前学習 #下流タスク汎化

Downloads 11.09k

Release Time : 10/10/2023

Model Overview

このモデルはRedPajamaデータセットを動的にロードしてプルーニングと継続事前学習を行い、50Bトークンの予算下で同クラスのモデルを上回る性能を実現しました

Model Features

効率的なプルーニング技術

わずか0.4Bトークンでプルーニングを行い、計算コストを大幅に削減

継続事前学習

プルーニング後のモデルに50Bトークンで継続事前学習を行い、性能を維持

互換性

LLaMA1およびLLaMA2と同じ語彙を使用しており、移行が容易

Model Capabilities

テキスト生成

言語理解

推論タスク

読解

知識集約型タスク処理

Use Cases

自然言語処理

言語モデルベンチマーク

ARC、HellaSwagなどのベンチマークで優れた性能

平均性能51.0、同クラス1.3Bパラメータモデルを上回る

知識質問応答

知識集約型QAタスクを処理

TruthfulQAで37.14点を獲得

🚀 Sheared-LLaMA

Sheared-LLaMAは、LLaMA2をベースに構造化プルーニングを行い、事前学習を加速させた言語モデルです。このモデルは、少ない事前学習トークンで高い性能を発揮し、下流タスクで既存の大規模言語モデルを上回る結果を示します。

🚀 クイックスタート

モデルの読み込み

Sheared-LLaMA-1.3Bモデルは、HuggingFaceを通じて以下のように読み込むことができます。

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("princeton-nlp/Sheared-LLaMA-1.3B")

✨ 主な機能

小規模: 少ないパラメータで高い性能を実現
LLaMA1とLLaMA2と同じ語彙: 既存のLLaMAモデルと互換性がある
既存の強力なLLMを活用: 50Bトークンの予算で派生させたモデル

📚 ドキュメント

モデルの詳細

Sheared-LLaMA-1.3Bは、meta-llama/Llama-2-7b-hfからプルーニングし、さらに事前学習を行ったモデルです。RedPajamaデータセットのさまざまなドメインからデータを動的にロードし、モデルのプルーニングと事前学習を行います。プルーニングには0.4Bトークン、事前学習には50Bトークンを使用しています。

下流タスクの評価

Sheared-LLaMAモデルは、推論、読解、言語モデリング、知識集約型タスクなどの幅広い下流タスクで評価されています。結果は、既存の大規模言語モデルを上回る性能を示しています。

1.3Bモデルの比較

モデル	事前学習トークン数	平均性能
OPT-1.3B	300B	48.2
Pythia-1.4B	300B	48.9
Sheared-LLaMA-1.3B	50B	51.0

3Bモデルの比較

モデル	事前学習トークン数	平均性能
OPT-2.7B	300B	51.4
Pythia-2.8B	300B	52.5
INCITE-Base-3B	800B	54.7
Open-LLaMA-3B-v1	1T	55.1
Open-LLaMA-3B-v2	1T	55.7
Sheared-LLaMA-2.7B	50B	56.7

Open LLM Leaderboardの評価結果

詳細な結果はこちらで確認できます。

メトリック	値
平均	31.47
ARC (25-shot)	32.85
HellaSwag (10-shot)	60.91
MMLU (5-shot)	25.71
TruthfulQA (0-shot)	37.14
Winogrande (5-shot)	58.64
GSM8K (5-shot)	0.45
DROP (3-shot)	4.56

🔧 技術詳細

Sheared-LLaMAは、構造化プルーニングを用いて事前学習を加速させる手法を採用しています。この手法により、少ない事前学習トークンで高い性能を達成することができます。

📄 ライセンス

このモデルはLlama2から派生しているため、Llama2のライセンスに準拠する必要があります。ライセンスはApache-2.0です。

Bibtex

@article{xia2023sheared,
  title={Sheared llama: Accelerating language model pre-training via structured pruning},
  author={Xia, Mengzhou and Gao, Tianyu and Zeng, Zhiyuan and Chen, Danqi},
  journal={arXiv preprint arXiv:2310.06694},
  year={2023}
}