🚀 Qwen2.5 7B Instruct GGUF - llamafile
概要
このプロジェクトは、Qwen2.5 7B InstructモデルをGGUF形式で提供し、llamafileを使って単一ファイルでLLMをローカルで実行できるようにすることを目的としています。開発者やエンドユーザーにとって、オープンソースの大規模言語モデルをより簡単に利用できるようになります。
🚀 クイックスタート
LlamaFileを使った実行方法
- LlamaFileをダウンロードします。
- コンピュータのターミナルを開きます。
- macOS、Linux、またはBSDを使用している場合、新しいファイルを実行するためのパーミッションを付与する必要があります。(一度だけ実行すればOKです。)
chmod +x qwen2.5-7b-instruct-q8_0.gguf
- Windowsを使用している場合、ファイル名の末尾に ".exe" を追加して名前を変更します。
- LlamaFileを実行します。例えば:
./qwen2.5-7b-instruct-q8_0.gguf
- ブラウザが自動的に開き、チャットインターフェイスが表示されます。(自動で開かない場合は、ブラウザを開き、
http://localhost:8080
にアクセスしてください。)
- チャットが終了したら、ターミナルに戻り、
Control-C
を押してLlamaFileをシャットダウンします。
Qwen2.5 7B Instruct GGUFモデルの使用方法
- まず、
llama.cpp
をクローンし、公式ガイドに従ってインストールします。
- GGUFファイルをダウンロードします。
huggingface-cli
をインストールします。
pip install -U huggingface_hub
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-GGUF --include "qwen2.5-7b-instruct-q5_k_m*.gguf" --local-dir . --local-dir-use-symlinks False
- 分割されたファイルがある場合は、マージします。
./llama-gguf-split --merge qwen2.5-7b-instruct-q5_k_m-00001-of-00002.gguf qwen2.5-7b-instruct-q5_k_m.gguf
- チャットボットのような体験を得るには、会話モードで開始することをお勧めします。
./llama-cli -m <gguf-file-path> \
-co -cnv -p "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." \
-fa -ngl 80 -n 512
✨ 主な機能
Qwen2.5の改良点
- 知識量の増加:専門のエキスパートモデルを活用することで、コーディングや数学の能力が大幅に向上しました。
- 命令追従能力の向上:長文生成、構造化データの理解、構造化出力の生成などの能力が向上し、システムプロンプトの多様性にも強くなりました。
- 長文コンテキストのサポート:最大128Kトークンの長文コンテキストをサポートし、最大8Kトークンを生成できます。
- 多言語サポート:中国語、英語、フランス語、スペイン語、ポルトガル語、ドイツ語、イタリア語、ロシア語、日本語、韓国語、ベトナム語、タイ語、アラビア語など、29以上の言語をサポートしています。
GGUF形式の特徴
- モデルタイプ:因果言語モデル
- トレーニング段階:事前学習と事後学習
- アーキテクチャ:RoPE、SwiGLU、RMSNorm、およびAttention QKVバイアスを備えたトランスフォーマー
- パラメータ数:76.1億
- 非埋め込みパラメータ数:65.3億
- レイヤー数:28
- アテンションヘッド数(GQA):Qに28、KVに4
- コンテキスト長:最大32,768トークン、生成最大8,192トークン
- 量子化:q2_K、q3_K_M、q4_0、q4_K_M、q5_0、q5_K_M、q6_K、q8_0
📦 インストール
LlamaFileのダウンロード
必要なLlamaFileをダウンロードしてください。
Qwen2.5 7B Instruct GGUFモデルのダウンロード
huggingface-cli
をインストールします。pip install -U huggingface_hub
- 必要なGGUFファイルをダウンロードします。
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-GGUF --include "qwen2.5-7b-instruct-q5_k_m*.gguf" --local-dir . --local-dir-use-symlinks False
- 分割されたファイルがある場合は、マージします。
./llama-gguf-split --merge qwen2.5-7b-instruct-q5_k_m-00001-of-00002.gguf qwen2.5-7b-instruct-q5_k_m.gguf
💻 使用例
LlamaFileの実行
./qwen2.5-7b-instruct-q8_0.gguf
Qwen2.5 7B Instruct GGUFモデルの会話モードでの実行
./llama-cli -m <gguf-file-path> \
-co -cnv -p "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." \
-fa -ngl 80 -n 512
📚 ドキュメント
🔧 技術詳細
アーキテクチャ
Qwen2.5は、RoPE、SwiGLU、RMSNorm、およびAttention QKVバイアスを備えたトランスフォーマーアーキテクチャを使用しています。
量子化
Qwen2.5 7B Instruct GGUFモデルは、q2_K、q3_K_M、q4_0、q4_K_M、q5_0、q5_K_M、q6_K、q8_0の量子化形式をサポートしています。
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で提供されています。
引用
もしこのプロジェクトが役に立った場合は、以下のように引用してください。
@misc{qwen2.5,
title = {Qwen2.5: A Party of Foundation Models},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen Team},
month = {September},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}