StrawberryLemonade-L3-70B-v1.0開源大模型 - 量化處理適配多硬件高效運行

首頁

Sophosympatheia StrawberryLemonade L3 70B V1.0 GGUF

由bartowski開發

StrawberryLemonade-L3-70B-v1.0 是一個經過量化處理的大型語言模型，旨在在不同硬件條件下高效運行。

大型語言模型英語#70B大模型 #高效量化 #多硬件適配

下載量 1,406

發布時間 : 6/10/2025

模型概述

該模型通過量化處理優化了在不同硬件上的運行效率，提供了多種量化類型以滿足不同的性能和質量需求。

模型特點

多種量化類型

提供了從 Q8_0 到 IQ1_M 的多種量化類型，滿足不同性能和質量需求。

高效運行

通過量化處理，模型能在不同硬件條件下更高效地運行。

在線重新打包

部分量化類型支持在線重新打包，優化 ARM 和 AVX 機器的性能。

模型能力

文本生成

多輪對話

系統提示支持

使用案例

通用文本生成

對話系統

可用於構建智能對話系統，支持多輪交互。

內容創作

生成高質量文本內容，如文章、故事等。

🚀 StrawberryLemonade-L3-70B-v1.0的Llamacpp imatrix量化版本

本項目是對sophosympatheia的StrawberryLemonade-L3-70B-v1.0模型進行量化處理。通過量化，能在不同硬件條件下更高效地運行該模型，滿足多樣化的使用需求。

🚀 快速開始

運行方式

LM Studio：可以直接在 LM Studio 中運行量化後的模型。
llama.cpp：也能使用 llama.cpp 或基於 llama.cpp 的其他項目來運行。

下載文件

你可以從下面的表格中選擇要下載的文件（不是整個分支）：

文件名	量化類型	文件大小	拆分情況	描述
StrawberryLemonade-L3-70B-v1.0-Q8_0.gguf	Q8_0	74.98GB	true	極高質量，通常不需要，但為最大可用量化。
StrawberryLemonade-L3-70B-v1.0-Q6_K.gguf	Q6_K	57.89GB	true	非常高質量，接近完美，推薦。
StrawberryLemonade-L3-70B-v1.0-Q5_K_M.gguf	Q5_K_M	49.95GB	true	高質量，推薦。
StrawberryLemonade-L3-70B-v1.0-Q5_K_S.gguf	Q5_K_S	48.66GB	false	高質量，推薦。
StrawberryLemonade-L3-70B-v1.0-Q4_1.gguf	Q4_1	44.31GB	false	舊格式，性能與 Q4_K_S 相似，但在 Apple silicon 上每瓦處理的令牌數有所提高。
StrawberryLemonade-L3-70B-v1.0-Q4_K_L.gguf	Q4_K_L	43.30GB	false	嵌入和輸出權重使用 Q8_0。質量良好，推薦。
StrawberryLemonade-L3-70B-v1.0-Q4_K_M.gguf	Q4_K_M	42.52GB	false	質量良好，是大多數用例的默認大小，推薦。
StrawberryLemonade-L3-70B-v1.0-Q4_K_S.gguf	Q4_K_S	40.35GB	false	質量略低，但節省更多空間，推薦。
StrawberryLemonade-L3-70B-v1.0-Q4_0.gguf	Q4_0	40.12GB	false	舊格式，可為 ARM 和 AVX CPU 推理提供在線重新打包功能。
StrawberryLemonade-L3-70B-v1.0-IQ4_NL.gguf	IQ4_NL	40.05GB	false	與 IQ4_XS 相似，但略大。可為 ARM CPU 推理提供在線重新打包功能。
StrawberryLemonade-L3-70B-v1.0-Q3_K_XL.gguf	Q3_K_XL	38.06GB	false	嵌入和輸出權重使用 Q8_0。質量較低但可用，適合低內存情況。
StrawberryLemonade-L3-70B-v1.0-IQ4_XS.gguf	IQ4_XS	37.90GB	false	質量不錯，比 Q4_K_S 小且性能相似，推薦。
StrawberryLemonade-L3-70B-v1.0-Q3_K_L.gguf	Q3_K_L	37.14GB	false	質量較低但可用，適合低內存情況。
StrawberryLemonade-L3-70B-v1.0-Q3_K_M.gguf	Q3_K_M	34.27GB	false	質量低。
StrawberryLemonade-L3-70B-v1.0-IQ3_M.gguf	IQ3_M	31.94GB	false	中低質量，新方法，性能與 Q3_K_M 相當。
StrawberryLemonade-L3-70B-v1.0-Q3_K_S.gguf	Q3_K_S	30.91GB	false	質量低，不推薦。
StrawberryLemonade-L3-70B-v1.0-IQ3_XS.gguf	IQ3_XS	29.31GB	false	質量較低，新方法，性能不錯，略優於 Q3_K_S。
StrawberryLemonade-L3-70B-v1.0-IQ3_XXS.gguf	IQ3_XXS	27.47GB	false	質量較低，新方法，性能不錯，與 Q3 量化相當。
StrawberryLemonade-L3-70B-v1.0-Q2_K_L.gguf	Q2_K_L	27.40GB	false	嵌入和輸出權重使用 Q8_0。質量極低但意外可用。
StrawberryLemonade-L3-70B-v1.0-Q2_K.gguf	Q2_K	26.38GB	false	質量極低但意外可用。
StrawberryLemonade-L3-70B-v1.0-IQ2_M.gguf	IQ2_M	24.12GB	false	質量相對較低，使用了最先進技術，意外可用。
StrawberryLemonade-L3-70B-v1.0-IQ2_S.gguf	IQ2_S	22.24GB	false	質量低，使用了最先進技術，可用。
StrawberryLemonade-L3-70B-v1.0-IQ2_XS.gguf	IQ2_XS	21.14GB	false	質量低，使用了最先進技術，可用。
StrawberryLemonade-L3-70B-v1.0-IQ2_XXS.gguf	IQ2_XXS	19.10GB	false	質量極低，使用了最先進技術，可用。
StrawberryLemonade-L3-70B-v1.0-IQ1_M.gguf	IQ1_M	16.75GB	false	質量極低，不推薦。

✨ 主要特性

量化處理：使用 llama.cpp 的 b5596 版本進行量化。
多種量化類型：提供了豐富的量化類型供選擇，以滿足不同的性能和質量需求。
在線重新打包：部分量化類型支持在線重新打包，可提高 ARM 和 AVX 機器的性能。

📦 安裝指南

安裝 huggingface-cli

首先，確保你已經安裝了 huggingface-cli：

pip install -U "huggingface_hub[cli]"

下載特定文件

你可以指定要下載的特定文件：

huggingface-cli download bartowski/sophosympatheia_StrawberryLemonade-L3-70B-v1.0-GGUF --include "sophosympatheia_StrawberryLemonade-L3-70B-v1.0-Q4_K_M.gguf" --local-dir ./

下載拆分文件

如果模型大於 50GB，它會被拆分成多個文件。要將它們全部下載到本地文件夾，請運行：

huggingface-cli download bartowski/sophosympatheia_StrawberryLemonade-L3-70B-v1.0-GGUF --include "sophosympatheia_StrawberryLemonade-L3-70B-v1.0-Q8_0/*" --local-dir ./

你可以指定一個新的本地目錄（如 sophosympatheia_StrawberryLemonade-L3-70B-v1.0-Q8_0），也可以將它們全部下載到當前目錄（./）。

💻 使用示例

提示格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

📚 詳細文檔

嵌入/輸出權重

部分量化類型（如 Q3_K_XL、Q4_K_L 等）採用標準量化方法，將嵌入和輸出權重量化為 Q8_0，而非默認值。

ARM/AVX 信息

以前，你會下載 Q4_0_4_4/4_8/8_8，這些文件的權重會在內存中交錯排列，以提高 ARM 和 AVX 機器的性能。現在，有了“在線重新打包”功能，詳情見此 PR。如果你使用 Q4_0 且硬件能從重新打包權重中受益，它會自動即時處理。

從 llama.cpp 版本 b4282 開始，你將無法運行 Q4_0_X_X 文件，而需要使用 Q4_0。此外，如果你想獲得更好的質量，可以使用 IQ4_NL，見此 PR，它也會為 ARM 重新打包權重，但目前僅支持 4_4。加載時間可能會變慢，但整體速度會提高。

選擇合適的文件

點擊查看詳情

Artefact2 提供了一篇很棒的文章，帶有展示各種性能的圖表，可點擊此處查看。

首先，你需要確定能運行多大的模型。這需要了解你有多少內存（RAM）和/或顯存（VRAM）。

追求最快速度：如果你希望模型儘可能快地運行，應將整個模型加載到 GPU 的顯存中。選擇文件大小比 GPU 總顯存小 1 - 2GB 的量化文件。
追求最高質量：如果你追求絕對最高質量，將系統內存和 GPU 顯存相加，然後選擇文件大小比該總和小 1 - 2GB 的量化文件。

接下來，你需要決定使用“I 量化”還是“K 量化”。

不想過多考慮：選擇 K 量化文件，格式為 QX_K_X，如 Q5_K_M。
想深入瞭解：可以查看這個非常有用的特性圖表：llama.cpp 特性矩陣。一般來說，如果你目標是低於 Q4 的量化，並且使用 cuBLAS（Nvidia）或 rocBLAS（AMD），可以考慮 I 量化文件，格式為 IQX_X，如 IQ3_M。這些是較新的量化類型，在相同大小下性能更好。

I 量化文件也可以在 CPU 上使用，但比對應的 K 量化文件慢，因此你需要在速度和性能之間做出權衡。