🚀 QwQ-32B-Preview AWQ 4ビット量子化バージョン
このプロジェクトは、通義チームによって開発された QwQ-32B-Preview モデルの AWQ 4ビット量子化 バージョンを提供しています。量子化されたモデルは、メモリ使用量と計算要件を大幅に削減し、リソースが限られたハードウェアでのデプロイに適しています。
🚀 クイックスタート
トークナイザーとモデルをロードし、量子化モデルを使用してコンテンツを生成するには、以下の手順に従ってください。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "KirillR/QwQ-32B-Preview-AWQ"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many 'r's are in 'strawberry'?"
messages = [
{"role": "system", "content": "You are a helpful assistant developed by Alibaba. Please think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=1024
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主な機能
- 低リソース消費:量子化されたモデルは、メモリ使用量と計算要件を大幅に削減し、リソースが限られたハードウェアでのデプロイに適しています。
- 特定分野での優れた性能:このモデルは、AI推論能力を向上させることを目的としており、特に数学とコーディングタスクで優れた性能を発揮します。
📦 インストール
最新バージョンのHugging Face Transformersを使用していることを確認してください。通義2.5のコードはこの中に統合されています。4.37.0 より前のバージョンを使用すると、以下のエラーが発生する可能性があります。
KeyError: 'qwen2'
📚 ドキュメント
モデルの制限事項
- 言語混合とコード切り替え:モデルは異なる言語間で意図せず切り替えたり混合したりすることがあり、応答の明瞭さに影響を与える可能性があります。
- 再帰的推論ループ:モデルは循環推論モードに陥る可能性があり、明確な答えがない長い応答を生成することがあります。
- セキュリティと倫理的考慮事項:信頼性と安全性を確保するために、セキュリティ対策を強化する必要があります。ユーザーはモデルをデプロイする際に注意してください。
- 性能の制限:数学とコーディングでは優れた性能を発揮しますが、常識的な推論や微妙な言語理解などの分野では性能が低い場合があります。
🔗 オリジナルモデル
オリジナルのQwQ-32B-Previewモデルの詳細については、以下のリソースを参照してください。
https://huggingface.co/Qwen/Qwen2.5-Coder-32B-Instruct-AWQ
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で提供されています。
📖 引用
オリジナルモデルが役立った場合は、原作者を引用することを検討してください。
@misc{qwq-32b-preview,
title = {QwQ: Reflect Deeply on the Boundaries of the Unknown},
url = {https://qwenlm.github.io/blog/qwq-32b-preview/},
author = {Qwen Team},
month = {November},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and others},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}
⚠️ 重要提示
この量子化モデルを正常に動作させるには、約 20 GBのGPUメモリ が必要です。