🚀 Qwen2.5 7B Instruct GGUF - llamafile
本项目旨在让开源大语言模型更易于开发者和终端用户使用。通过将 llama.cpp 与 Cosmopolitan Libc 结合,我们打造了一个单文件可执行程序(即 "llamafile"),无需安装即可在大多数计算机上本地运行大语言模型。
🚀 快速开始
运行 LLMs 无需安装!
你只需下载一个文件并运行它。
运行步骤
- 下载 llamafile。
- 打开计算机的终端。
- 如果你使用的是 macOS、Linux 或 BSD 系统,需要授予计算机执行该新文件的权限(仅需执行一次):
chmod +x qwen2.5-7b-instruct-q8_0.gguf
- 如果你使用的是 Windows 系统,在文件名末尾添加 ".exe" 进行重命名。
- 运行 llamafile,例如:
./qwen2.5-7b-instruct-q8_0.gguf
- 浏览器应会自动打开并显示聊天界面。如果没有自动打开,只需手动打开浏览器并访问 http://localhost:8080。
- 聊天结束后,返回终端并按下
Control-C
关闭 llamafile。
⚠️ 重要提示
LlamaFile 仍在积极开发中,某些方法可能与最新文档不兼容。
✨ 主要特性
单文件运行
无需安装,下载文件即可运行,让本地运行大语言模型变得轻松简单。
广泛支持
支持 Qwen2.5 7B Instruct GGUF 模型,具有多种量化格式可供选择。
📦 安装指南
下载 GGUF 文件
由于克隆整个仓库可能效率不高,你可以手动下载所需的 GGUF 文件,也可以使用 huggingface-cli
:
- 安装
huggingface_hub
:
pip install -U huggingface_hub
- 下载文件:
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-GGUF --include "qwen2.5-7b-instruct-q5_k_m*.gguf" --local-dir . --local-dir-use-symlinks False
对于大文件,由于文件上传限制,我们将其拆分为多个片段。它们共享一个前缀,后缀表示其索引。例如,qwen2.5-7b-instruct-q5_k_m-00001-of-00002.gguf
和 qwen2.5-7b-instruct-q5_k_m-00002-of-00002.gguf
。上述命令将下载所有片段。
3. (可选)合并文件:
对于拆分的文件,你需要使用 llama-gguf-split
命令进行合并,如下所示:
./llama-gguf-split --merge qwen2.5-7b-instruct-q5_k_m-00001-of-00002.gguf qwen2.5-7b-instruct-q5_k_m.gguf
📚 详细文档
Qwen2.5 7B Instruct GGUF 模型设置
- 模型创建者:Qwen
- 使用的量化 GGUF 文件:Qwen/Qwen2.5-7B-Instruct-GGUF
- 提交信息:"upload fp16 weights"
- 提交哈希:bb5d59e06d9551d752d08b292a50eb208b07ab1f
- 使用的 LlamaFile 版本:Mozilla-Ocho/llamafile
- 提交信息:"Merge pull request #687 from Xydane/main Add Support for DeepSeek-R1 models"
- 提交哈希:29b5f27172306da39a9c70fe25173da1b1564f82
.args
内容格式(示例):
-m
qwen2.5-7b-instruct-q8_0.gguf
...
Qwen2.5-7B-Instruct-GGUF 模型介绍
Qwen2.5 是通义大语言模型的最新系列。对于 Qwen2.5,我们发布了一系列参数从 0.5 亿到 720 亿的基础语言模型和指令微调语言模型。Qwen2.5 在 Qwen2 的基础上带来了以下改进:
- 知识更丰富:由于我们在编码和数学领域的专业专家模型,Qwen2.5 拥有显著更多的知识,并在 编码 和 数学 方面的能力有了极大提升。
- 指令遵循能力增强:在 指令遵循、长文本生成(超过 8K 标记)、结构化数据理解(例如表格)和 结构化输出生成(特别是 JSON)方面有显著改进。对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实现和条件设置。
- 长上下文支持:支持长达 128K 标记的上下文,并可生成多达 8K 标记。
- 多语言支持:支持超过 29 种语言,包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等。
本仓库包含以 GGUF 格式存储的 7B 指令微调 Qwen2.5 模型,具有以下特点:
属性 |
详情 |
模型类型 |
因果语言模型 |
训练阶段 |
预训练和后训练 |
架构 |
带有 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer |
参数数量 |
76.1 亿 |
非嵌入参数数量 |
65.3 亿 |
层数 |
28 |
注意力头数量(GQA) |
Q 为 28,KV 为 4 |
上下文长度 |
完整 32,768 标记,生成 8192 标记 |
量化格式 |
q2_K、q3_K_M、q4_0、q4_K_M、q5_0、q5_K_M、q6_K、q8_0 |
更多详细信息,请参考我们的 博客、GitHub 和 文档。
运行示例
为了获得类似聊天机器人的体验,建议在对话模式下开始:
./llama-cli -m <gguf-file-path> \
-co -cnv -p "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." \
-fa -ngl 80 -n 512
评估与性能
详细的评估结果请参考此 📑 博客。
对于量化模型,与原始 bfloat16 模型的基准测试结果可在此 链接 找到。
关于 GPU 内存要求和相应的吞吐量,请查看此 链接 的结果。
引用
如果你觉得我们的工作有帮助,请随意引用:
@misc{qwen2.5,
title = {Qwen2.5: A Party of Foundation Models},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen Team},
month = {September},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}
📄 许可证
本项目采用 Apache-2.0 许可证。