🚀 Qwen2.5 7B Instruct GGUF - llamafile
本項目旨在讓開源大語言模型更易於開發者和終端用戶使用。通過將 llama.cpp 與 Cosmopolitan Libc 結合,我們打造了一個單文件可執行程序(即 "llamafile"),無需安裝即可在大多數計算機上本地運行大語言模型。
🚀 快速開始
運行 LLMs 無需安裝!
你只需下載一個文件並運行它。
運行步驟
- 下載 llamafile。
- 打開計算機的終端。
- 如果你使用的是 macOS、Linux 或 BSD 系統,需要授予計算機執行該新文件的權限(僅需執行一次):
chmod +x qwen2.5-7b-instruct-q8_0.gguf
- 如果你使用的是 Windows 系統,在文件名末尾添加 ".exe" 進行重命名。
- 運行 llamafile,例如:
./qwen2.5-7b-instruct-q8_0.gguf
- 瀏覽器應會自動打開並顯示聊天界面。如果沒有自動打開,只需手動打開瀏覽器並訪問 http://localhost:8080。
- 聊天結束後,返回終端並按下
Control-C
關閉 llamafile。
⚠️ 重要提示
LlamaFile 仍在積極開發中,某些方法可能與最新文檔不兼容。
✨ 主要特性
單文件運行
無需安裝,下載文件即可運行,讓本地運行大語言模型變得輕鬆簡單。
廣泛支持
支持 Qwen2.5 7B Instruct GGUF 模型,具有多種量化格式可供選擇。
📦 安裝指南
下載 GGUF 文件
由於克隆整個倉庫可能效率不高,你可以手動下載所需的 GGUF 文件,也可以使用 huggingface-cli
:
- 安裝
huggingface_hub
:
pip install -U huggingface_hub
- 下載文件:
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-GGUF --include "qwen2.5-7b-instruct-q5_k_m*.gguf" --local-dir . --local-dir-use-symlinks False
對於大文件,由於文件上傳限制,我們將其拆分為多個片段。它們共享一個前綴,後綴表示其索引。例如,qwen2.5-7b-instruct-q5_k_m-00001-of-00002.gguf
和 qwen2.5-7b-instruct-q5_k_m-00002-of-00002.gguf
。上述命令將下載所有片段。
3. (可選)合併文件:
對於拆分的文件,你需要使用 llama-gguf-split
命令進行合併,如下所示:
./llama-gguf-split --merge qwen2.5-7b-instruct-q5_k_m-00001-of-00002.gguf qwen2.5-7b-instruct-q5_k_m.gguf
📚 詳細文檔
Qwen2.5 7B Instruct GGUF 模型設置
- 模型創建者:Qwen
- 使用的量化 GGUF 文件:Qwen/Qwen2.5-7B-Instruct-GGUF
- 提交信息:"upload fp16 weights"
- 提交哈希:bb5d59e06d9551d752d08b292a50eb208b07ab1f
- 使用的 LlamaFile 版本:Mozilla-Ocho/llamafile
- 提交信息:"Merge pull request #687 from Xydane/main Add Support for DeepSeek-R1 models"
- 提交哈希:29b5f27172306da39a9c70fe25173da1b1564f82
.args
內容格式(示例):
-m
qwen2.5-7b-instruct-q8_0.gguf
...
Qwen2.5-7B-Instruct-GGUF 模型介紹
Qwen2.5 是通義大語言模型的最新系列。對於 Qwen2.5,我們發佈了一系列參數從 0.5 億到 720 億的基礎語言模型和指令微調語言模型。Qwen2.5 在 Qwen2 的基礎上帶來了以下改進:
- 知識更豐富:由於我們在編碼和數學領域的專業專家模型,Qwen2.5 擁有顯著更多的知識,並在 編碼 和 數學 方面的能力有了極大提升。
- 指令遵循能力增強:在 指令遵循、長文本生成(超過 8K 標記)、結構化數據理解(例如表格)和 結構化輸出生成(特別是 JSON)方面有顯著改進。對系統提示的多樣性更具彈性,增強了聊天機器人的角色扮演實現和條件設置。
- 長上下文支持:支持長達 128K 標記的上下文,並可生成多達 8K 標記。
- 多語言支持:支持超過 29 種語言,包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韓文、越南文、泰文、阿拉伯文等。
本倉庫包含以 GGUF 格式存儲的 7B 指令微調 Qwen2.5 模型,具有以下特點:
屬性 |
詳情 |
模型類型 |
因果語言模型 |
訓練階段 |
預訓練和後訓練 |
架構 |
帶有 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer |
參數數量 |
76.1 億 |
非嵌入參數數量 |
65.3 億 |
層數 |
28 |
注意力頭數量(GQA) |
Q 為 28,KV 為 4 |
上下文長度 |
完整 32,768 標記,生成 8192 標記 |
量化格式 |
q2_K、q3_K_M、q4_0、q4_K_M、q5_0、q5_K_M、q6_K、q8_0 |
更多詳細信息,請參考我們的 博客、GitHub 和 文檔。
運行示例
為了獲得類似聊天機器人的體驗,建議在對話模式下開始:
./llama-cli -m <gguf-file-path> \
-co -cnv -p "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." \
-fa -ngl 80 -n 512
評估與性能
詳細的評估結果請參考此 📑 博客。
對於量化模型,與原始 bfloat16 模型的基準測試結果可在此 鏈接 找到。
關於 GPU 內存要求和相應的吞吐量,請查看此 鏈接 的結果。
引用
如果你覺得我們的工作有幫助,請隨意引用:
@misc{qwen2.5,
title = {Qwen2.5: A Party of Foundation Models},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen Team},
month = {September},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}
📄 許可證
本項目採用 Apache-2.0 許可證。