🚀 ReluLLaMA-7B
ReLU活性化関数を用いた大規模言語モデルで、計算効率を向上させることを目的としています。
🚀 クイックスタート
ReluLLaMA-7Bは、Metaが開発したLlama 2 7Bをベースに、THUNLPとModelBestによって微調整されたモデルです。このモデルは、ReLU活性化関数を用いることで、大規模言語モデルの計算効率を向上させることを目指しています。
✨ 主な機能
- スパース計算の活用:ReLU活性化関数を用いることで、大規模言語モデルにおけるスパース計算を実現し、計算効率を向上させます。
- 知識蒸留の利用:知識蒸留の手法を用いて、微調整データが少ない場合でも過学習を防ぎ、モデルの汎化能力を向上させます。
- 多様なデータセットでの学習:Wikipedia、Pile、StackOverflowなどの約50億トークンのデータセットを用いて学習されています。
📚 ドキュメント
背景
スパース計算は、大規模言語モデル(LLM)の計算効率を向上させる重要な方向性として認識されています。特に、Mixtralなどのモデルに代表されるエキスパート混合(MoE)手法は、異なるモデルコンポーネント(エキスパート)を選択的に活性化することで、リソースの使用を最適化します。
最近の研究(Zhang el al., 2021; Liu et al., 2023; Mirzadeh et al., 2023)によると、ReLU活性化関数を用いた場合、LLMは本質的にスパース計算に適した特性を持っていることが明らかになっています。この知見は、MoEの選択的活性化と同様に、モデルの効率化に新たな道を開きます。モデルパラメータを動的に選択して計算することで、大幅な効率向上が期待できます。
しかし、ReLUベースのモデルは、LLM分野でまだ広く採用されていません。既存の研究(Zhang el al., 2021; Mirzadeh et al., 2023)の変換手法を参考に、既存のモデルをReLU活性化バージョンに微調整しました。これらのオープンソースのReLU LLMが、スパースLLMの開発を促進することを期待しています。
データセット
このモデルは、約50億トークンのデータセットを用いて微調整されています。これには以下のものが含まれます:
- Wikipedia
- Pile
- StackOverflow
より多くのトークン(より多様なデータを含む)での学習を続けることで、モデルは元の性能にさらに近づくことが期待されます。
学習詳細
このモデルは、従来の言語モデリング目標と知識蒸留目標の両方を同時に最適化しています。知識蒸留目標は、教師モデルと学生モデルの間のKLダイバージェンスを最小化することです。教師モデルは元のLLMで、学生モデルはReLU活性化バージョンです。微調整データのサイズが比較的小さいため、知識蒸留目標を導入して過学習を防ぎ、モデルの汎化能力を向上させています。これはラベルスムージングの手法としても見ることができます。
パラメータ |
値 |
微調整タイプ |
完全微調整 |
バッチサイズ |
2048 |
GPU |
8xA100(80G) |
学習率スケジューラ |
コサイン |
学習率 |
3e-5 |
評価
このモデルは、Open LLM Leaderboardのデータセットで評価されています。結果は以下の通りです:
指標 |
ReLU値 |
元の値 |
ARC (25-shot) |
49.48 |
53.07 |
HellaSwag (10-shot) |
74.67 |
78.59 |
MMLU (5-shot) |
44.84 |
46.87 |
TruthfulQA (0-shot) |
39.04 |
38.76 |
Winogrande (5-shot) |
69.37 |
74.03 |
GSM8K (5-shot) |
10.61 |
14.48 |
平均 |
48.00 |
50.97 |
推論ツール
推論にはPowerInferを使用しています。ここでは、fp16精度での純粋なCPUベースの推論速度を示します。
CPU構成は、Intel i9-13900Kプロセッサ(5.4GHzの8つの高性能コア)と192GBのホストメモリ(メモリ帯域幅67.2 GB/s)です。
密推論:5.17トークン/秒
スパース推論:8.21トークン/秒
ライセンス免責事項
このモデルは、元のLlama-2モデルのライセンスと使用制限に拘束されています。また、いかなる保証も提供されていません。
制限事項とバイアス
Llama 2とその微調整バリアントは、使用に伴うリスクを持つ新しい技術です。これまでのテストは英語で行われており、すべてのシナリオを網羅していません。このため、他のすべてのLLMと同様に、Llama 2とその微調整バリアントの潜在的な出力は事前に予測できず、モデルは場合によっては不正確、バイアスがある、またはその他の不快な応答を生成する可能性があります。したがって、Llama 2バリアントのアプリケーションを展開する前に、開発者はモデルの特定のアプリケーションに合わせた安全性テストとチューニングを行う必要があります。
詳細は、Responsible Use Guideを参照してください。
引用
以下のBibTeXを使用して引用してください:
@misc{sparsellm,
title={Sparse Large Language Models with ReLU Activation},
author={SpaseLLM Team},
year={2023}
}
謝辞
このモデルカードは、ORCA_LLaMA_70B_QLoRAを参考に作成されています。