Q

Qwen2.5 72B Instruct GGUF

由Mungert開發
Qwen2.5-72B-Instruct的GGUF量化版本,支持多種精度格式,適用於不同硬件環境的高效推理。
下載量 1,439
發布時間 : 4/9/2025

模型概述

基於Qwen2.5-72B-Instruct的GGUF量化模型,提供從BF16到極低位量化(如IQ3_XS)的多種格式,適用於GPU、CPU及低內存設備的推理需求。

模型特點

多精度支持
提供BF16、F16及多種量化格式(Q4_K至Q8_0),適配不同硬件需求。
硬件優化
針對GPU(BF16/FP16加速)、CPU(量化模型)及ARM設備(Q4_0)分別優化。
極致內存效率
IQ3_XS等極低位量化模型可在超低內存設備運行,適合邊緣部署。

模型能力

多語言文本生成
指令跟隨
低資源推理

使用案例

高效推理
GPU加速生成
使用BF16/F16格式在支持硬件上實現高速文本生成。
降低延遲,提升吞吐量
邊緣設備部署
通過Q4_K或IQ3_XS量化在樹莓派等設備運行模型。
內存佔用減少50%以上
多語言應用
跨語言聊天助手
支持13種語言的交互式對話。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase