Llama-2-7b-hf-4bit-64rankオープンソースLoftQモデル - 大規模言語モデルの微調整性能と効率を無料で向上させる

ホーム

Llama 2 7b Hf 4bit 64rank

LoftQによって開発

LoftQ（LoRA微調整感知量子化）モデルで、量子化されたバックボーンネットワークとLoRAアダプターを提供し、LoRA微調整用に設計され、大規模言語モデルの量子化過程における微調整性能と効率を向上させます。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #LoRA微調整感知量子化 #4ビット効率的推論 #数学問題の解決

ダウンロード数 1,754

リリース時間 : 11/21/2023

モデル概要

このモデルはLLAMA - 2 - 7bをベースに、LoftQ方法で4ビット量子化を行い、同時にLoRAアダプターを提供し、大規模言語モデルの量子化過程でのLoRA微調整との非互換性の問題を解決することを目的としています。

モデル特徴

量子化サポート

4ビット量子化されたバックボーンネットワークを提供し、モデルの保存と計算リソースの要件を大幅に削減します。

LoRA微調整感知

LoRA微調整用に特別に設計された量子化方法で、微調整過程の性能と効率を最適化します。

効率的な保存

量子化後のモデルサイズは約4.2 GiBで、リソースが制限された環境に適しています。

モデル能力

テキスト生成

LoRA微調整

使用事例

数学問題の解決

GSM8K数学問題の解答

GSM8Kデータセットで微調整した後、モデルは数学問題の解答に使用できます。

微調整後のモデルのGSM8Kでの正解率は35.0%です。

テキスト生成

WikiText - 2テキスト生成

WikiText - 2データセットで微調整し、連続したテキストの生成に使用します。

微調整後のモデルのWikiText - 2での困惑度は5.24です。

🚀 LoftQの初期化

LoftQ（LoRA微調整感知量子化）は、全精度の事前学習済み重みWが与えられた場合、量子化されたメインネットワークQとLoRAアダプタAおよびBを提供します。本プロジェクトは、大規模言語モデルの量子化プロセスにおけるLoRA微調整との非互換性の問題を解決することを目的としており、特定の量子化メインネットワークとアダプタを提供することで、微調整時のモデルの性能と効率を向上させます。

| 論文 | コード | PEFTの例 |

本モデルLlama-2-7b-hf-4bit-64rankは LLAMA-2-7b から派生しています。メインネットワークはLoftQ/Llama-2-7b-hf-4bit-64rankに保存され、LoRAアダプタはsubfolder='loftq_init'に保存されています。

✨ 主な機能

量子化サポート：量子化されたメインネットワークとLoRAアダプタを提供し、モデルの保存と計算リソースの要件を削減します。
LoRA微調整感知：LoRA微調整に特化した量子化方法で、微調整の効率を向上させます。

💻 使用例

基本的な使用法

以下は、このモデルをロードしてLoRA微調整を行う準備をする例です：

import torch
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel

MODEL_ID = "LoftQ/Llama-2-7b-hf-4bit-64rank"

base_model = AutoModelForCausalLM.from_pretrained(MODEL_ID)
peft_model = PeftModel.from_pretrained(
    base_model,
    MODEL_ID,
    subfolder="loftq_init",
    is_trainable=True,
)

# Do training with peft_model ...

高度な使用法

以下は、モデルを GSM8K で微調整した後に推論を行う例です：

import torch
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel

MODEL_ID = "LoftQ/Llama-2-7b-hf-4bit-64rank"

base_model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID, 
    torch_dtype=torch.bfloat16,  # you may change it with different models
    quantization_config=BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_compute_dtype=torch.bfloat16,  # bfloat16 is recommended
        bnb_4bit_use_double_quant=False,
        bnb_4bit_quant_type='nf4',
    ),
)
peft_model = PeftModel.from_pretrained(
    base_model,
    MODEL_ID,
    subfolder="gsm8k",
    is_trainable=True,
)

# Do inference with peft_model ...

完全なコードは、Githubリポジトリを参照してください。

📚 ドキュメント

モデル情報

メインネットワーク

属性	詳細
保存形式	bitsandbytes nf4
サイズ	~ 4.2 GiB
ロード形式	bitsandbytes nf4
GPUロードサイズ	~ 4.2 GiB

LoRAアダプタ

属性	詳細
ランク	64
lora_alpha	16
対象モジュール	["down_proj", "up_proj", "q_proj", "k_proj", "v_proj", "o_proj", "gate_proj"]

実験結果

GSM8K と WikiText-2 の教師あり微調整タスクで実験を行いました。

モデル	ビット数	ランク	LoRA初期化	GSM8K	WikiText-2
LLAMA-2-7b	16	64	ガウス分布 + 0	36.9	5.08
LLAMA-2-7b	4	64	ガウス分布 + 0 (QLoRA)	35.1	5.70
LLAMA-2-7b	4	64	LoftQ	35.0	5.24

📄 ライセンス

本プロジェクトはMITライセンスを採用しています。

📖 引用

@article{li2023loftq,
  title={Loftq: Lora-fine-tuning-aware quantization for large language models},
  author={Li, Yixiao and Yu, Yifan and Liang, Chen and He, Pengcheng and Karampatziakis, Nikos and Chen, Weizhu and Zhao, Tuo},
  journal={arXiv preprint arXiv:2310.08659},
  year={2023}
}