模型概述
模型特點
模型能力
使用案例
🚀 Llama-4-Scout-17B-16E-Instruct的Llamacpp imatrix量化版本
本項目是對Meta的Llama-4-Scout-17B-16E-Instruct模型進行的量化處理,旨在提升模型在不同硬件上的運行效率。通過使用特定的量化工具和數據集,生成了多種不同量化類型的模型文件,用戶可以根據自身需求選擇合適的文件進行下載和使用。
🚀 快速開始
運行環境
可以在 LM Studio 中運行這些量化模型,也可以直接使用 llama.cpp 或其他基於 llama.cpp 的項目。
下載模型文件
你可以從以下表格中選擇需要的模型文件進行下載:
文件名 | 量化類型 | 文件大小 | 分割情況 | 描述 |
---|---|---|---|---|
Llama-4-Scout-17B-16E-Instruct-Q8_0.gguf | Q8_0 | 113.40GB | true | 極高質量,通常無需使用,但為最大可用量化類型。 |
Llama-4-Scout-17B-16E-Instruct-Q6_K_L.gguf | Q6_K_L | 89.26GB | true | 嵌入和輸出權重使用 Q8_0。非常高質量,接近完美,推薦。 |
Llama-4-Scout-17B-16E-Instruct-Q5_K_L.gguf | Q5_K_L | 79.32GB | true | 嵌入和輸出權重使用 Q8_0。高質量,推薦。 |
Llama-4-Scout-17B-16E-Instruct-Q4_1.gguf | Q4_1 | 69.10GB | true | 舊格式,性能與 Q4_K_S 相似,但在蘋果硅芯片上的令牌/瓦特性能有所提升。 |
Llama-4-Scout-17B-16E-Instruct-Q4_K_L.gguf | Q4_K_L | 68.31GB | true | 嵌入和輸出權重使用 Q8_0。質量良好,推薦。 |
Llama-4-Scout-17B-16E-Instruct-Q4_K_M.gguf | Q4_K_M | 67.55GB | true | 質量良好,是大多數用例的默認大小,推薦。 |
Llama-4-Scout-17B-16E-Instruct-Q4_0.gguf | Q4_0 | 63.05GB | true | 舊格式,提供 ARM 和 AVX CPU 推理的在線重新打包功能。 |
Llama-4-Scout-17B-16E-Instruct-IQ4_NL.gguf | IQ4_NL | 62.99GB | true | 與 IQ4_XS 相似,但稍大。提供 ARM CPU 推理的在線重新打包功能。 |
Llama-4-Scout-17B-16E-Instruct-IQ4_XS.gguf | IQ4_XS | 59.89GB | true | 質量不錯,比 Q4_K_S 小,性能相似,推薦。 |
Llama-4-Scout-17B-16E-Instruct-Q3_K_XL.gguf | Q3_K_XL | 58.70GB | true | 嵌入和輸出權重使用 Q8_0。質量較低但可用,適合低內存情況。 |
Llama-4-Scout-17B-16E-Instruct-Q3_K_L.gguf | Q3_K_L | 57.80GB | true | 質量較低但可用,適合低內存情況。 |
Llama-4-Scout-17B-16E-Instruct-Q3_K_M.gguf | Q3_K_M | 54.32GB | true | 質量低。 |
Llama-4-Scout-17B-16E-Instruct-IQ3_M.gguf | IQ3_M | 50.32GB | true | 中低質量,新方法,性能與 Q3_K_M 相當。 |
Llama-4-Scout-17B-16E-Instruct-Q3_K_S.gguf | Q3_K_S | 49.75GB | false | 質量低,不推薦。 |
Llama-4-Scout-17B-16E-Instruct-IQ3_XS.gguf | IQ3_XS | 47.45GB | false | 質量較低,新方法,性能不錯,略優於 Q3_K_S。 |
Llama-4-Scout-17B-16E-Instruct-IQ3_XXS.gguf | IQ3_XXS | 44.96GB | false | 質量較低,新方法,性能不錯,與 Q3 量化類型相當。 |
Llama-4-Scout-17B-16E-Instruct-Q2_K_L.gguf | Q2_K_L | 44.00GB | false | 嵌入和輸出權重使用 Q8_0。質量非常低,但出人意料地可用。 |
Llama-4-Scout-17B-16E-Instruct-Q2_K.gguf | Q2_K | 42.99GB | false | 質量非常低,但出人意料地可用。 |
Llama-4-Scout-17B-16E-Instruct-IQ2_M.gguf | IQ2_M | 37.11GB | false | 質量相對較低,使用 SOTA 技術,出人意料地可用。 |
Llama-4-Scout-17B-16E-Instruct-IQ2_S.gguf | IQ2_S | 34.34GB | false | 質量低,使用 SOTA 技術,可用。 |
Llama-4-Scout-17B-16E-Instruct-IQ2_XS.gguf | IQ2_XS | 32.94GB | false | 質量低,使用 SOTA 技術,可用。 |
Llama-4-Scout-17B-16E-Instruct-IQ2_XXS.gguf | IQ2_XXS | 30.17GB | false | 質量非常低,使用 SOTA 技術,可用。 |
Llama-4-Scout-17B-16E-Instruct-IQ1_M.gguf | IQ1_M | 26.32GB | false | 質量極低,不推薦。 |
提示格式
<|begin_of_text|><|header_start|>system<|header_end|>
{system_prompt}<|eot|><|header_start|>user<|header_end|>
{prompt}<|eot|><|header_start|>assistant<|header_end|>
📦 安裝指南
使用 huggingface-cli 下載
點擊查看下載說明
首先,確保你已經安裝了 hugginface-cli:
pip install -U "huggingface_hub[cli]"
然後,你可以指定要下載的特定文件:
huggingface-cli download bartowski/meta-llama_Llama-4-Scout-17B-16E-Instruct-GGUF --include "meta-llama_Llama-4-Scout-17B-16E-Instruct-Q4_K_M.gguf" --local-dir ./
如果模型大小超過 50GB,它將被分割成多個文件。要將它們全部下載到本地文件夾,請運行:
huggingface-cli download bartowski/meta-llama_Llama-4-Scout-17B-16E-Instruct-GGUF --include "meta-llama_Llama-4-Scout-17B-16E-Instruct-Q8_0/*" --local-dir ./
你可以指定一個新的本地目錄(meta-llama_Llama-4-Scout-17B-16E-Instruct-Q8_0),也可以將它們全部下載到當前目錄(./)。
🔧 技術細節
嵌入/輸出權重
部分量化類型(如 Q3_K_XL、Q4_K_L 等)採用標準量化方法,將嵌入和輸出權重量化為 Q8_0,而不是默認值。
ARM/AVX 信息
以前,你會下載 Q4_0_4_4/4_8/8_8,這些模型的權重會在內存中交錯排列,以便通過一次加載更多數據來提高 ARM 和 AVX 機器的性能。
然而,現在有了一種稱為“在線重新打包”的權重處理方法,詳情見 此 PR。如果你使用 Q4_0 並且硬件可以從重新打包權重中受益,它將自動即時進行處理。
從 llama.cpp 版本 b4282 開始,你將無法運行 Q4_0_X_X 文件,而需要使用 Q4_0。
此外,如果你想獲得稍好的質量,可以使用 IQ4_NL,這得益於 此 PR,它也會為 ARM 重新打包權重,但目前僅支持 4_4。加載時間可能會更長,但總體速度會提高。
點擊查看 Q4_0_X_X 信息(已棄用)
我保留這部分內容是為了展示使用帶有在線重新打包功能的 Q4_0 可能帶來的理論性能提升。
點擊查看 AVX2 系統(EPYC7702)上的基準測試
模型 | 大小 | 參數 | 後端 | 線程數 | 測試 | 每秒令牌數 | 與 Q4_0 相比的百分比 |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 |
📄 許可證
LLAMA 4 社區許可協議
Llama 4 版本生效日期:2025 年 4 月 5 日
“協議”指本協議中規定的 Llama 材料的使用、複製、分發和修改的條款和條件。
“文檔”指 Meta 在 https://www.llama.com/docs/overview 上分發的 Llama 4 隨附的規格、手冊和文檔。
“被許可方”或“您”指您,或您的僱主,或任何其他人或實體(如果您代表該人或實體簽訂本協議),須達到適用法律、規則或法規要求的提供法律同意的年齡,並且如果您代表您的僱主或其他此類人或實體簽訂本協議,您具有約束他們的合法權力。
“Llama 4”指 Meta 在 https://www.llama.com/llama-downloads 上分發的基礎大語言模型、軟件和算法,包括機器學習模型代碼、訓練模型權重、推理啟用代碼、訓練啟用代碼、微調啟用代碼以及上述內容的其他元素。
“Llama 材料”指根據本協議提供的 Meta 專有 Llama 4 和文檔(及其任何部分)的統稱。
“Meta”或“我們”指 Meta Platforms Ireland Limited(如果您位於歐洲經濟區或瑞士,或者如果您是一個實體,您的主要營業地位於歐洲經濟區或瑞士)和 Meta Platforms, Inc.(如果您位於歐洲經濟區或瑞士以外)。
通過點擊下面的“我接受”,或使用或分發 Llama 材料的任何部分或元素,您同意受本協議約束。
- 許可權利和再分發
- a. 權利授予。Meta 根據其知識產權或其他權利,授予您一項非排他性、全球性、不可轉讓且免版稅的有限許可,允許您在 Llama 材料中使用、複製、分發、拷貝、創作衍生作品並對 Llama 材料進行修改。
- b. 再分發和使用
- i. 如果您分發或提供 Llama 材料(或其任何衍生作品),或包含其中任何內容的產品或服務(包括另一個 AI 模型),您應(A)隨任何此類 Llama 材料提供本協議的副本;(B)在相關網站、用戶界面、博客文章、關於頁面或產品文檔上顯著顯示“Built with Llama”。如果您使用 Llama 材料或其任何輸出或結果來創建、訓練、微調或以其他方式改進一個 AI 模型,並進行分發或提供,您還應在任何此類 AI 模型名稱前加上“Llama”。
- ii. 如果您作為集成最終用戶產品的一部分從被許可方處獲得 Llama 材料或其任何衍生作品,則本協議第 2 條不適用於您。
- iii. 您必須在分發的所有 Llama 材料副本中保留以下歸屬聲明,該聲明應包含在作為此類副本一部分分發的“Notice”文本文件中:“Llama 4 is licensed under the Llama 4 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved.”
- iv. 您使用 Llama 材料必須遵守適用的法律法規(包括貿易合規法律法規),並遵守 Llama 材料的可接受使用政策(可在 https://www.llama.com/llama4/use-policy 上獲取),該政策特此併入本協議。
- 額外商業條款:如果在 Llama 4 版本發佈日期,被許可方或其關聯公司提供的產品或服務的月活躍用戶在前一個日曆月超過 7 億,則您必須向 Meta 請求許可,Meta 可自行決定是否授予您許可。在 Meta 明確授予您此類權利之前,您無權行使本協議下的任何權利。
- 免責聲明:除非適用法律要求,否則 Llama 材料及其任何輸出和結果均按“現狀”提供,不提供任何形式的保證。Meta 明確否認所有明示和暗示的保證,包括但不限於所有權、不侵權、適銷性或特定用途適用性的保證。您獨自負責確定使用或再分發 Llama 材料的適當性,並承擔使用 Llama 材料及其任何輸出和結果的相關風險。
- 責任限制:在任何情況下,Meta 或其關聯公司均不對因本協議引起的任何責任理論(無論是合同、侵權、疏忽、產品責任還是其他)導致的任何利潤損失或任何間接、特殊、後果性、偶發性、懲戒性或懲罰性損害負責,即使 Meta 或其關聯公司已被告知此類損害的可能性。
- 知識產權
- a. 本協議未授予商標許可。與 Llama 材料相關時,除非為合理和慣常描述及再分發 Llama 材料所需,或如本節 5(a) 所述,否則 Meta 和被許可方均不得使用對方或其關聯公司擁有或關聯的任何名稱或標誌。Meta 特此授予您一項許可,僅在遵守第 1.b.i 條最後一句的要求時使用“Llama”(“標誌”)。您將遵守 Meta 的品牌指南(目前可在 https://about.meta.com/brand/resources/meta/company-brand/ 上獲取)。您使用該標誌產生的所有商譽均歸 Meta 所有。
- b. 鑑於 Meta 對 Llama 材料及其衍生作品的所有權,就您對 Llama 材料所做的任何衍生作品和修改而言,在您和 Meta 之間,您是並將繼續是此類衍生作品和修改的所有者。
- c. 如果您對 Meta 或任何實體(包括在訴訟中的交叉索賠或反訴)提起訴訟或其他程序,聲稱 Llama 材料或 Llama 4 的輸出或結果,或上述任何內容的任何部分,構成對您擁有或可許可的知識產權或其他權利的侵權,則本協議授予您的任何許可自提起此類訴訟或索賠之日起終止。您將賠償並使 Meta 免受任何第三方因您使用或分發 Llama 材料而產生或與之相關的任何索賠。
- 期限和終止:本協議的期限自您接受本協議或訪問 Llama 材料時開始,並將持續有效,直至根據本協議的條款和條件終止。如果您違反本協議的任何條款或條件,Meta 可終止本協議。本協議終止後,您應刪除並停止使用 Llama 材料。第 3、4 和 7 條在本協議終止後仍然有效。
- 適用法律和管轄權:本協議受加利福尼亞州法律管轄並依其解釋,不考慮法律選擇原則,《聯合國國際貨物銷售合同公約》不適用於本協議。加利福尼亞州的法院對因本協議引起的任何爭議具有專屬管轄權。



