ICONNAI_ICONN-1-GGUF开源模型 - 多量化选项满足不同性能与质量需求

首页

ICONNAI ICONN 1 GGUF

由 bartowski 开发

ICONN-1的量化版本，提供多种量化选项以适应不同性能和质量需求

大型语言模型开源协议:其他 #多量化版本 #高性能推理 #大模型优化

下载量 609

发布时间 : 6/19/2025

模型简介

该项目提供了ICONNAI的ICONN-1模型的Llamacpp imatrix量化版本，包含从Q2到Q8的多种量化选项，适用于不同硬件配置和使用场景

模型特点

多样化量化选项

提供从Q2到Q8共20多种量化版本，满足不同硬件配置和性能需求

imatrix量化技术

使用llama.cpp的imatrix选项进行量化，优化模型性能

硬件适配优化

支持ARM和AVX CPU的在线权重重新打包，提升特定硬件上的运行效率

高质量推荐选项

提供Q6_K_L、Q5_K_M等多款高质量量化版本作为推荐选择

模型能力

文本生成

对话系统

指令理解

使用案例

本地部署

LM Studio运行

可在LM Studio中直接运行量化模型

llama.cpp集成

可与任何基于llama.cpp的项目集成使用

研究应用

量化技术研究

可用于研究不同量化方法对模型性能的影响

🚀 ICONNAI的ICONN - 1的Llamacpp imatrix量化模型

本项目提供了ICONNAI的ICONN - 1模型的Llamacpp imatrix量化版本。这些量化模型在不同的场景下具有不同的性能和质量表现，用户可以根据自身需求进行选择。

🚀 快速开始

访问请求说明

由于该模型存在大量负面反馈，为避免用户在不知情的情况下下载，模型将设置访问权限。访问链接：相关讨论。提交访问信息后将自动批准，这只是一个额外的“我已了解”步骤，提交的信息不会被查看。

模型量化信息

量化工具：使用 llama.cpp 版本 b5697 进行量化。
原始模型：ICONN - 1
量化数据集：所有量化使用imatrix选项，数据集来自此处。

运行方式

LM Studio：可在 LM Studio 中运行。
llama.cpp：可直接使用 llama.cpp 或任何基于llama.cpp的项目运行。

✨ 主要特性

提示格式

未指定聊天模板，使用默认格式，可能存在错误，详情请查看原始模型卡片。

<s>[SYSTEM_PROMPT]{system_prompt}[/SYSTEM_PROMPT][INST]{prompt}[/INST]

模型文件下载

可从以下链接下载单个文件（非整个分支）：

文件名	量化类型	文件大小	是否拆分	描述
ICONN - 1 - Q8_0.gguf	Q8_0	89.23GB	true	极高质量，通常不需要，但为最大可用量化。
ICONN - 1 - Q6_K_L.gguf	Q6_K_L	69.22GB	true	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
ICONN - 1 - Q6_K.gguf	Q6_K	68.89GB	true	非常高质量，接近完美，推荐。
ICONN - 1 - Q5_K_L.gguf	Q5_K_L	60.04GB	true	嵌入和输出权重使用Q8_0。高质量，推荐。
ICONN - 1 - Q5_K_M.gguf	Q5_K_M	59.63GB	true	高质量，推荐。
ICONN - 1 - Q5_K_S.gguf	Q5_K_S	57.83GB	true	高质量，推荐。
ICONN - 1 - Q4_1.gguf	Q4_1	52.63GB	true	旧格式，性能与Q4_K_S相似，但在Apple硅芯片上每瓦令牌数有所提高。
ICONN - 1 - Q4_K_L.gguf	Q4_K_L	51.40GB	true	嵌入和输出权重使用Q8_0。质量良好，推荐。
ICONN - 1 - Q4_K_M.gguf	Q4_K_M	50.91GB	true	质量良好，大多数用例的默认大小，推荐。
ICONN - 1 - Q4_K_S.gguf	Q4_K_S	47.84GB	false	质量略低，但节省空间，推荐。
ICONN - 1 - Q4_0.gguf	Q4_0	47.63GB	false	旧格式，可为ARM和AVX CPU推理提供在线重新打包。
ICONN - 1 - IQ4_NL.gguf	IQ4_NL	47.45GB	false	与IQ4_XS相似，但略大。可为ARM CPU推理提供在线重新打包。
ICONN - 1 - IQ4_XS.gguf	IQ4_XS	44.85GB	false	质量尚可，比Q4_K_S小，性能相似，推荐。
ICONN - 1 - Q3_K_XL.gguf	Q3_K_XL	44.13GB	false	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
ICONN - 1 - Q3_K_L.gguf	Q3_K_L	43.55GB	false	质量较低但可用，适合低内存情况。
ICONN - 1 - Q3_K_M.gguf	Q3_K_M	40.23GB	false	低质量。
ICONN - 1 - IQ3_M.gguf	IQ3_M	36.94GB	false	中低质量，新方法，性能与Q3_K_M相当。
ICONN - 1 - Q3_K_S.gguf	Q3_K_S	36.36GB	false	低质量，不推荐。
ICONN - 1 - IQ3_XS.gguf	IQ3_XS	34.45GB	false	质量较低，新方法，性能尚可，略优于Q3_K_S。
ICONN - 1 - IQ3_XXS.gguf	IQ3_XXS	32.40GB	false	质量较低，新方法，性能尚可，与Q3量化相当。
ICONN - 1 - Q2_K_L.gguf	Q2_K_L	31.41GB	false	嵌入和输出权重使用Q8_0。质量非常低，但出乎意料地可用。
ICONN - 1 - Q2_K.gguf	Q2_K	30.76GB	false	质量非常低，但出乎意料地可用。
ICONN - 1 - IQ2_M.gguf	IQ2_M	27.74GB	false	相对低质量，使用最先进技术，出乎意料地可用。
ICONN - 1 - IQ2_S.gguf	IQ2_S	25.29GB	false	低质量，使用最先进技术，可用。
ICONN - 1 - IQ2_XS.gguf	IQ2_XS	24.77GB	false	低质量，使用最先进技术，可用。
ICONN - 1 - IQ2_XXS.gguf	IQ2_XXS	22.30GB	false	质量非常低，使用最先进技术，可用。

嵌入/输出权重

部分量化模型（如Q3_K_XL、Q4_K_L等）采用标准量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。

下载方式

使用huggingface - cli下载

首先，确保已安装huggingface - cli：

pip install -U "huggingface_hub[cli]"

然后，可指定要下载的特定文件：

huggingface-cli download bartowski/ICONNAI_ICONN-1-GGUF --include "ICONNAI_ICONN-1-Q4_K_M.gguf" --local-dir ./

如果模型大于50GB，它将被拆分为多个文件。要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/ICONNAI_ICONN-1-GGUF --include "ICONNAI_ICONN-1-Q8_0/*" --local-dir ./

可以指定新的本地目录（ICONNAI_ICONN - 1 - Q8_0）或将它们全部下载到当前位置（./）。

ARM/AVX信息

以前，会下载Q4_0_4_4/4_8/8_8，这些模型的权重在内存中交错排列，以通过一次加载更多数据来提高ARM和AVX机器的性能。

现在，有了所谓的权重“在线重新打包”功能，详情见此PR。如果使用Q4_0且硬件能从重新打包权重中受益，它将自动实时进行。

从llama.cpp构建 b4282 开始，将无法运行Q4_0_X_X文件，而需要使用Q4_0。

此外，由于此PR，如果想获得稍好的质量，可以使用IQ4_NL，它也会为ARM重新打包权重，但目前仅适用于4_4。加载时间可能较慢，但总体速度会提高。

如何选择文件

可参考 Artefact2提供的详细分析及以下步骤选择合适的文件：

确定可运行的模型大小：需要确定可用的系统RAM和GPU的VRAM大小。
- 如果希望模型尽可能快地运行，应使整个模型适合GPU的VRAM。选择文件大小比GPU总VRAM小1 - 2GB的量化模型。
- 如果追求绝对最高质量，将系统RAM和GPU的VRAM相加，然后选择文件大小比该总和小1 - 2GB的量化模型。
选择'I - quant'或'K - quant'：
- 如果不想过多考虑，选择K - quant，格式为'QX_K_X'，如Q5_K_M。
- 如果想深入了解，可查看 [llama.cpp功能矩阵](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix)。一般来说，如果目标是低于Q4，并且使用cuBLAS（Nvidia）或rocBLAS（AMD），应选择I - quant，格式为IQX_X，如IQ3_M。I - quant较新，相同大小下性能更好，但在CPU上运行比K - quant慢，需要在速度和性能之间进行权衡。