Qwen2-7B-int4-incオープンソースモデル - 無料で効率的に様々な推論タスクを完了

ホーム

Qwen2 7B Int4 Inc

Intelによって開発

Qwen2-7BベースのINT4自動量子化モデル、インテルのauto-roundツールで生成され、効率的な推論タスクに適しています

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #4ビット量子化 #中国語最適化 #大規模言語モデル

ダウンロード数 48

リリース時間 : 6/5/2024

モデル概要

このモデルはQwen2-7B大規模言語モデルの4ビット整数量子化バージョンで、自動量子化技術により推論効率を最適化しつつ、高いモデル性能を維持しています。

モデル特徴

効率的なINT4量子化

4ビット整数量子化技術を採用し、モデルサイズとメモリ使用量を大幅に削減しながら、高い精度を維持

自動量子化最適化

auto-roundツールを使用して量子化プロセスを自動最適化、手動調整不要

マルチプラットフォーム対応

通常のGPU/CPUやインテルGaudi-2アクセラレータなど、様々なハードウェアプラットフォームをサポート

モデル能力

中国語テキスト生成

英語テキスト生成

数学問題解答

常識推論

知識質問応答

使用事例

コンテンツ生成

会社紹介生成

キーワードに基づいて会社や製品の紹介テキストを自動生成

例：'アリババ社は世界をリードする電子商取引会社です...'

ストーリー創作

冒頭のヒントに基づいて物語を続きを書く

例：'Once upon a time, there was a little girl named Alice...'

教育支援

数学問題解答

基礎的な数学の比較や計算問題を解答

例：'9.8は9.11より0.7大きい'

🚀 Intel/Qwen2-7B-int4-inc

このモデルは、Qwen/Qwen2-7B のグループサイズ128のint4自動丸めモデルで、intel/auto-round によって生成されました。AutoGPTQ形式が必要な場合は、リビジョン 07a117c でモデルをロードしてください。

🚀 クイックスタート

✨ 主な機能

このモデルは、Qwen/Qwen2-7B を元にしたint4自動丸めモデルで、特定のグループサイズと設定を持ち、異なる形式での推論や評価が可能です。

📦 インストール

必要なライブラリをインストールする必要があります。

pip install auto-round (cpu needs version > 0.3.1)
pip3 install lm-eval==0.4.4,auto-round

💻 使用例

基本的な使用法

INT4 Inference

##pip install auto-round (cpu needs version > 0.3.1))
from auto_round import AutoRoundConfig ##must import for auto_round format
from transformers import AutoModelForCausalLM,AutoTokenizer
quantized_model_dir = "Intel/Qwen2-7B-int4-inc"
tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir)
model = AutoModelForCausalLM.from_pretrained(quantized_model_dir,
                                             device_map="auto"
                                             ## revision="07a117c" ##AutoGPTQ format
                                             )
text = "下面我来介绍一下阿里巴巴公司，"
text = "9.8和9.11哪个数字大？答案是"
text = "Once upon a time,"
text = "There is a girl who likes adventure,"
inputs = tokenizer(text, return_tensors="pt").to(model.device)
print(tokenizer.decode(model.generate(**inputs, max_new_tokens=50, do_sample=False)[0]))
##下面我来介绍一下阿里巴巴公司，阿里巴巴公司是全球领先的电子商务公司，成立于1999年，总部位于中国杭州。阿里巴巴公司致力于为全球中小企业提供一个在线交易平台，帮助他们拓展业务，提高销售额。阿里巴巴公司拥有多个业务板块，包括淘宝、天猫
##
##9.8和9.11哪个数字大？答案是9.8，因为9.8比9.11大0.7。
##Once upon a time, there was a little girl named Alice who loved to read. She had a special book that she had inherited from her grandmother, and it was filled with stories of magical creatures and far-off lands. One day, Alice decided to read the book in a
##There is a girl who likes adventure, and she is always looking for new experiences. She is a bit of a thrill-seeker, and she loves to push herself to the limit. She is always up for a challenge, and she is not afraid to take risks. She is a bit

Intel Gaudi-2 INT4 Inference

import habana_frameworks.torch.core as htcore
import habana_frameworks.torch.hpu as hthpu

from auto_round import AutoRoundConfig
from transformers import AutoModelForCausalLM,AutoTokenizer

quantized_model_dir = "Intel/Qwen2-7B-int4-inc"
tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir)
model = AutoModelForCausalLM.from_pretrained(quantized_model_dir).to('hpu').to(bfloat16)
text = "下面我来介绍一下阿里巴巴公司,"
inputs = tokenizer(text, return_tensors="pt").to(model.device)
print(tokenizer.decode(model.generate(**inputs, max_new_tokens=50, do_sample=False)[0]))

高度な使用法

モデルの評価

auto-round  --model "Intel/Qwen2-7B-int4-inc"  --eval --eval_bs 16  --tasks lambada_openai,hellaswag,piqa,winogrande,truthfulqa_mc1,openbookqa,boolq,arc_easy,arc_challenge,mmlu,gsm8k,cmmlu,ceval-valid

指標	BF16	INT4
平均	0.6659	0.6604
mmlu	0.6697	0.6646
cmmlu	0.8254	0.8118
ceval-valid	0.8339	0.8053
lambada_openai	0.7182	0.7136
hellaswag	0.5823	0.5752
winogrande	0.7222	0.7277
piqa	0.7911	0.7933
truthfulqa_mc1	0.3647	0.3476
openbookqa	0.3520	0.3440
boolq	0.8183	0.8223
arc_easy	0.7660	0.7635
arc_challenge	0.4505	0.4633
gsm8k 5 shots(strict match)	0.7619	0.7528

モデルの生成

auto-round
--model_name  Qwen/Qwen2-7B \
--device 0 \
--group_size 128 \
--nsamples 512 \
--bits 4 \
--iter 1000 \
--disable_eval \
--model_dtype "float16" \
--format 'auto_round' \
--output_dir "./tmp_autoround"

📚 ドキュメント

モデルの詳細

このモデルは、Qwen/Qwen2-7B のint4自動丸めモデルで、グループサイズは128です。intel/auto-round を使用して生成されています。AutoGPTQ形式が必要な場合は、リビジョン 07a117c でモデルをロードしてください。

🔧 技術詳細

このモデルは、特定のアルゴリズムと設定を使用して生成されています。具体的には、自動丸め技術を用いて、モデルの重みを量子化しています。これにより、モデルの推論速度を向上させることができます。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

注意事項

⚠️ 重要提示

このモデルは事実誤りのある出力を生成する可能性があり、事実的に正確な情報を生成することに依存しないでください。事前学習モデルと微調整データセットの制限により、このモデルが猥褻、偏見、またはその他の不快な出力を生成する可能性があります。したがって、このモデルのアプリケーションを展開する前に、開発者は安全性テストを実施する必要があります。

💡 使用建议

ユーザー（直接および下流の両方）は、このモデルのリスク、偏見、および制限を認識する必要があります。IntelのAIソフトウェアについて詳しく学ぶには、以下の有用なリンクを参照してください。

Intel Neural Compressor link

Intel Extension for Transformers link

免責事項

このモデルのライセンスは法的アドバイスを構成するものではありません。このモデルを使用する第三者の行動について、当方は責任を負いません。商用目的でこのモデルを使用する前に、弁護士に相談してください。

引用

@article{cheng2023optimize,
  title={Optimize weight rounding via signed gradient descent for the quantization of llms},
  author={Cheng, Wenhua and Zhang, Weiwei and Shen, Haihao and Cai, Yiyang and He, Xin and Lv, Kaokao and Liu, Yi},
  journal={arXiv preprint arXiv:2309.05516},
  year={2023}
}

arxiv github