L

Llama 3.1 8B Instruct GGUF

由Mungert開發
Llama-3.1-8B-Instruct 是基於 Llama-3-8B 的指令調優版本,採用 IQ-DynamicGate 技術進行超低位量化(1-2 比特),在保持內存效率的同時提升準確性。
下載量 1,073
發布時間 : 3/16/2025

模型概述

該模型是 Meta 發佈的 Llama-3 系列中的 8B 參數指令調優版本,經過優化適用於各種推理任務,特別適合內存受限的環境。

模型特點

IQ-DynamicGate 超低位量化
採用分層策略進行 1-2 比特量化,前/後 25% 層使用 IQ4_XS,中間 50% 層使用 IQ2_XXS/IQ3_S,顯著降低困惑度。
關鍵組件保護
嵌入層和輸出層使用 Q5_K 量化,減少誤差傳播達 38%。
內存效率優化
多種量化選項(IQ1_S 到 Q8_0)滿足不同內存需求,最小模型僅 2.1GB。

模型能力

文本生成
指令跟隨
低內存推理
CPU/邊緣設備部署

使用案例

內存受限部署
邊緣設備推理
在內存有限的邊緣設備上運行大型語言模型
IQ1_S 量化版本僅需 2.1GB 內存
研究應用
超低位量化研究
研究 1-2 比特量化的效果和優化方法
IQ1_M 困惑度降低 43.9%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase