ReluLLaMA-7Bオープンソース大規模言語モデル - 効率的な計算で多様なテキスト処理ニーズを満たす

ホーム

Relullama 7B

SparseLLMによって開発

Llama 2 7Bを微調整したReLU活性化スパース大規模言語モデル、動的パラメータ選択により計算効率を向上

大規模言語モデル

Transformers

英語#ReLU活性化最適化 #スパース計算加速 #知識蒸留強化

ダウンロード数 5,323

リリース時間 : 11/28/2023

モデル概要

ReLU活性化関数を採用したスパース大規模言語モデル、知識蒸留と共同最適化により効率的な推論を実現、英語テキスト処理タスクに適応

モデル特徴

スパース計算最適化

ReLU活性化関数を採用し、MoEのような選択的パラメータ活性化を実現、計算効率を向上

共同最適化訓練

言語モデリングと知識蒸留タスクを同期して実行、過学習を防止し汎化能力を強化

効率的推論サポート

PowerInfer推論フレームワークと互換性があり、CPUスパース推論加速をサポート

モデル能力

英語テキスト生成

言語理解

質問応答システム

知識推論

使用事例

効率最適化

CPU環境推論加速

リソース制約環境で効率的な推論を実現

スパース推論速度8.21トークン/秒（i9-13900K）

学術研究

スパース計算研究

スパース大規模言語モデルアルゴリズム研究のための基礎モデルを提供

🚀 ReluLLaMA-7B

ReLU活性化関数を用いた大規模言語モデルで、計算効率を向上させることを目的としています。

🚀 クイックスタート

ReluLLaMA-7Bは、Metaが開発したLlama 2 7Bをベースに、THUNLPとModelBestによって微調整されたモデルです。このモデルは、ReLU活性化関数を用いることで、大規模言語モデルの計算効率を向上させることを目指しています。

✨ 主な機能

スパース計算の活用：ReLU活性化関数を用いることで、大規模言語モデルにおけるスパース計算を実現し、計算効率を向上させます。
知識蒸留の利用：知識蒸留の手法を用いて、微調整データが少ない場合でも過学習を防ぎ、モデルの汎化能力を向上させます。
多様なデータセットでの学習：Wikipedia、Pile、StackOverflowなどの約50億トークンのデータセットを用いて学習されています。

📚 ドキュメント

背景

スパース計算は、大規模言語モデル（LLM）の計算効率を向上させる重要な方向性として認識されています。特に、Mixtralなどのモデルに代表されるエキスパート混合（MoE）手法は、異なるモデルコンポーネント（エキスパート）を選択的に活性化することで、リソースの使用を最適化します。

最近の研究（Zhang el al., 2021; Liu et al., 2023; Mirzadeh et al., 2023）によると、ReLU活性化関数を用いた場合、LLMは本質的にスパース計算に適した特性を持っていることが明らかになっています。この知見は、MoEの選択的活性化と同様に、モデルの効率化に新たな道を開きます。モデルパラメータを動的に選択して計算することで、大幅な効率向上が期待できます。

しかし、ReLUベースのモデルは、LLM分野でまだ広く採用されていません。既存の研究（Zhang el al., 2021; Mirzadeh et al., 2023）の変換手法を参考に、既存のモデルをReLU活性化バージョンに微調整しました。これらのオープンソースのReLU LLMが、スパースLLMの開発を促進することを期待しています。

データセット

このモデルは、約50億トークンのデータセットを用いて微調整されています。これには以下のものが含まれます：

Wikipedia
Pile
StackOverflow

より多くのトークン（より多様なデータを含む）での学習を続けることで、モデルは元の性能にさらに近づくことが期待されます。

学習詳細

このモデルは、従来の言語モデリング目標と知識蒸留目標の両方を同時に最適化しています。知識蒸留目標は、教師モデルと学生モデルの間のKLダイバージェンスを最小化することです。教師モデルは元のLLMで、学生モデルはReLU活性化バージョンです。微調整データのサイズが比較的小さいため、知識蒸留目標を導入して過学習を防ぎ、モデルの汎化能力を向上させています。これはラベルスムージングの手法としても見ることができます。

パラメータ	値
微調整タイプ	完全微調整
バッチサイズ	2048
GPU	8xA100(80G)
学習率スケジューラ	コサイン
学習率	3e-5

評価

このモデルは、Open LLM Leaderboardのデータセットで評価されています。結果は以下の通りです：

指標	ReLU値	元の値
ARC (25-shot)	49.48	53.07
HellaSwag (10-shot)	74.67	78.59
MMLU (5-shot)	44.84	46.87
TruthfulQA (0-shot)	39.04	38.76
Winogrande (5-shot)	69.37	74.03
GSM8K (5-shot)	10.61	14.48
平均	48.00	50.97

推論ツール

推論にはPowerInferを使用しています。ここでは、fp16精度での純粋なCPUベースの推論速度を示します。 CPU構成は、Intel i9-13900Kプロセッサ（5.4GHzの8つの高性能コア）と192GBのホストメモリ（メモリ帯域幅67.2 GB/s）です。

密推論：5.17トークン/秒スパース推論：8.21トークン/秒

ライセンス免責事項

このモデルは、元のLlama-2モデルのライセンスと使用制限に拘束されています。また、いかなる保証も提供されていません。

制限事項とバイアス

Llama 2とその微調整バリアントは、使用に伴うリスクを持つ新しい技術です。これまでのテストは英語で行われており、すべてのシナリオを網羅していません。このため、他のすべてのLLMと同様に、Llama 2とその微調整バリアントの潜在的な出力は事前に予測できず、モデルは場合によっては不正確、バイアスがある、またはその他の不快な応答を生成する可能性があります。したがって、Llama 2バリアントのアプリケーションを展開する前に、開発者はモデルの特定のアプリケーションに合わせた安全性テストとチューニングを行う必要があります。

詳細は、Responsible Use Guideを参照してください。

引用

以下のBibTeXを使用して引用してください：

@misc{sparsellm,
    title={Sparse Large Language Models with ReLU Activation}, 
    author={SpaseLLM Team},
    year={2023}
}

謝辞

このモデルカードは、ORCA_LLaMA_70B_QLoRAを参考に作成されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご