🚀 Intel/Qwen2-7B-int4-inc
このモデルは、Qwen/Qwen2-7B のグループサイズ128のint4自動丸めモデルで、intel/auto-round によって生成されました。AutoGPTQ形式が必要な場合は、リビジョン 07a117c
でモデルをロードしてください。
🚀 クイックスタート
✨ 主な機能
このモデルは、Qwen/Qwen2-7B を元にしたint4自動丸めモデルで、特定のグループサイズと設定を持ち、異なる形式での推論や評価が可能です。
📦 インストール
必要なライブラリをインストールする必要があります。
pip install auto-round (cpu needs version > 0.3.1)
pip3 install lm-eval==0.4.4,auto-round
💻 使用例
基本的な使用法
INT4 Inference
from auto_round import AutoRoundConfig
from transformers import AutoModelForCausalLM,AutoTokenizer
quantized_model_dir = "Intel/Qwen2-7B-int4-inc"
tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir)
model = AutoModelForCausalLM.from_pretrained(quantized_model_dir,
device_map="auto"
)
text = "下面我来介绍一下阿里巴巴公司,"
text = "9.8和9.11哪个数字大?答案是"
text = "Once upon a time,"
text = "There is a girl who likes adventure,"
inputs = tokenizer(text, return_tensors="pt").to(model.device)
print(tokenizer.decode(model.generate(**inputs, max_new_tokens=50, do_sample=False)[0]))
Intel Gaudi-2 INT4 Inference
import habana_frameworks.torch.core as htcore
import habana_frameworks.torch.hpu as hthpu
from auto_round import AutoRoundConfig
from transformers import AutoModelForCausalLM,AutoTokenizer
quantized_model_dir = "Intel/Qwen2-7B-int4-inc"
tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir)
model = AutoModelForCausalLM.from_pretrained(quantized_model_dir).to('hpu').to(bfloat16)
text = "下面我来介绍一下阿里巴巴公司,"
inputs = tokenizer(text, return_tensors="pt").to(model.device)
print(tokenizer.decode(model.generate(**inputs, max_new_tokens=50, do_sample=False)[0]))
高度な使用法
モデルの評価
auto-round --model "Intel/Qwen2-7B-int4-inc" --eval --eval_bs 16 --tasks lambada_openai,hellaswag,piqa,winogrande,truthfulqa_mc1,openbookqa,boolq,arc_easy,arc_challenge,mmlu,gsm8k,cmmlu,ceval-valid
指標 |
BF16 |
INT4 |
平均 |
0.6659 |
0.6604 |
mmlu |
0.6697 |
0.6646 |
cmmlu |
0.8254 |
0.8118 |
ceval-valid |
0.8339 |
0.8053 |
lambada_openai |
0.7182 |
0.7136 |
hellaswag |
0.5823 |
0.5752 |
winogrande |
0.7222 |
0.7277 |
piqa |
0.7911 |
0.7933 |
truthfulqa_mc1 |
0.3647 |
0.3476 |
openbookqa |
0.3520 |
0.3440 |
boolq |
0.8183 |
0.8223 |
arc_easy |
0.7660 |
0.7635 |
arc_challenge |
0.4505 |
0.4633 |
gsm8k 5 shots(strict match) |
0.7619 |
0.7528 |
モデルの生成
auto-round
--model_name Qwen/Qwen2-7B \
--device 0 \
--group_size 128 \
--nsamples 512 \
--bits 4 \
--iter 1000 \
--disable_eval \
--model_dtype "float16" \
--format 'auto_round' \
--output_dir "./tmp_autoround"
📚 ドキュメント
モデルの詳細
このモデルは、Qwen/Qwen2-7B のint4自動丸めモデルで、グループサイズは128です。intel/auto-round を使用して生成されています。AutoGPTQ形式が必要な場合は、リビジョン 07a117c
でモデルをロードしてください。
🔧 技術詳細
このモデルは、特定のアルゴリズムと設定を使用して生成されています。具体的には、自動丸め技術を用いて、モデルの重みを量子化しています。これにより、モデルの推論速度を向上させることができます。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
注意事項
⚠️ 重要提示
このモデルは事実誤りのある出力を生成する可能性があり、事実的に正確な情報を生成することに依存しないでください。事前学習モデルと微調整データセットの制限により、このモデルが猥褻、偏見、またはその他の不快な出力を生成する可能性があります。したがって、このモデルのアプリケーションを展開する前に、開発者は安全性テストを実施する必要があります。
💡 使用建议
ユーザー(直接および下流の両方)は、このモデルのリスク、偏見、および制限を認識する必要があります。IntelのAIソフトウェアについて詳しく学ぶには、以下の有用なリンクを参照してください。
- Intel Neural Compressor link
- Intel Extension for Transformers link
免責事項
このモデルのライセンスは法的アドバイスを構成するものではありません。このモデルを使用する第三者の行動について、当方は責任を負いません。商用目的でこのモデルを使用する前に、弁護士に相談してください。
引用
@article{cheng2023optimize,
title={Optimize weight rounding via signed gradient descent for the quantization of llms},
author={Cheng, Wenhua and Zhang, Weiwei and Shen, Haihao and Cai, Yiyang and He, Xin and Lv, Kaokao and Liu, Yi},
journal={arXiv preprint arXiv:2309.05516},
year={2023}
}
arxiv github