Gemma 2 9b It Abliterated GGUF
模型概述
這是一個經過量化的Gemma 2.9B模型版本,通過llama.cpp工具進行優化,提供了多種量化選項以適應不同的硬件需求。
模型特點
多種量化選項
提供從F32到Q2_K的多種量化版本,適應不同硬件和性能需求。
優化嵌入和輸出權重
部分量化版本使用Q8_0優化嵌入和輸出權重,可能提升模型質量。
ARM優化
提供專門針對ARM架構優化的量化版本,支持不同ARM芯片特性。
模型能力
文本生成
對話系統
使用案例
對話系統
智能助手
可用於構建智能對話助手,支持多輪對話。
內容生成
文本創作
可用於生成各種類型的文本內容,如故事、文章等。
🚀 gemma-2-9b-it-abliterated的Llamacpp imatrix量化版本
本項目提供了gemma-2-9b-it-abliterated模型的量化版本,使用特定工具和方法進行量化處理,方便在不同環境下高效運行。
🚀 快速開始
運行環境
可在 LM Studio 中運行這些量化模型。
下載文件
你可以從下方表格中選擇需要的文件進行下載(非整個分支):
文件名 | 量化類型 | 文件大小 | 拆分情況 | 描述 |
---|---|---|---|---|
gemma-2-9b-it-abliterated-f32.gguf | f32 | 36.97GB | 否 | 完整的F32權重。 |
gemma-2-9b-it-abliterated-f32.gguf | f32 | 36.97GB | 否 | 完整的F32權重。 |
gemma-2-9b-it-abliterated-Q8_0.gguf | Q8_0 | 9.83GB | 否 | 極高質量,通常不需要,但為最大可用量化。 |
gemma-2-9b-it-abliterated-Q6_K_L.gguf | Q6_K_L | 7.81GB | 否 | 嵌入和輸出權重使用Q8_0。非常高質量,近乎完美,推薦。 |
gemma-2-9b-it-abliterated-Q6_K.gguf | Q6_K | 7.59GB | 否 | 非常高質量,近乎完美,推薦。 |
gemma-2-9b-it-abliterated-Q5_K_L.gguf | Q5_K_L | 6.87GB | 否 | 嵌入和輸出權重使用Q8_0。高質量,推薦。 |
gemma-2-9b-it-abliterated-Q5_K_M.gguf | Q5_K_M | 6.65GB | 否 | 高質量,推薦。 |
gemma-2-9b-it-abliterated-Q5_K_S.gguf | Q5_K_S | 6.48GB | 否 | 高質量,推薦。 |
gemma-2-9b-it-abliterated-Q4_K_L.gguf | Q4_K_L | 5.98GB | 否 | 嵌入和輸出權重使用Q8_0。質量良好,推薦。 |
gemma-2-9b-it-abliterated-Q4_K_M.gguf | Q4_K_M | 5.76GB | 否 | 質量良好,大多數用例的默認大小,推薦。 |
gemma-2-9b-it-abliterated-Q4_K_S.gguf | Q4_K_S | 5.48GB | 否 | 質量稍低,但節省更多空間,推薦。 |
gemma-2-9b-it-abliterated-Q4_0.gguf | Q4_0 | 5.46GB | 否 | 舊格式,提供ARM和AVX推理的在線重新打包。 |
gemma-2-9b-it-abliterated-Q4_0_8_8.gguf | Q4_0_8_8 | 5.44GB | 否 | 針對ARM推理優化。需要'sve'支持(見下方鏈接)。 |
gemma-2-9b-it-abliterated-Q4_0_4_8.gguf | Q4_0_4_8 | 5.44GB | 否 | 針對ARM推理優化。需要'i8mm'支持(見下方鏈接)。 |
gemma-2-9b-it-abliterated-Q4_0_4_4.gguf | Q4_0_4_4 | 5.44GB | 否 | 針對ARM推理優化。應該在所有ARM芯片上都能良好工作,如果你不確定,選擇這個。 |
gemma-2-9b-it-abliterated-Q3_K_XL.gguf | Q3_K_XL | 5.35GB | 否 | 嵌入和輸出權重使用Q8_0。質量較低但可用,適合低內存情況。 |
gemma-2-9b-it-abliterated-IQ4_XS.gguf | IQ4_XS | 5.18GB | 否 | 質量不錯,比Q4_K_S小,性能相似,推薦。 |
gemma-2-9b-it-abliterated-Q3_K_L.gguf | Q3_K_L | 5.13GB | 否 | 質量較低但可用,適合低內存情況。 |
gemma-2-9b-it-abliterated-Q3_K_M.gguf | Q3_K_M | 4.76GB | 否 | 低質量。 |
gemma-2-9b-it-abliterated-IQ3_M.gguf | IQ3_M | 4.49GB | 否 | 中低質量,新方法,性能與Q3_K_M相當。 |
gemma-2-9b-it-abliterated-Q3_K_S.gguf | Q3_K_S | 4.34GB | 否 | 低質量,不推薦。 |
gemma-2-9b-it-abliterated-IQ3_XS.gguf | IQ3_XS | 4.14GB | 否 | 質量較低,新方法,性能不錯,略優於Q3_K_S。 |
gemma-2-9b-it-abliterated-Q2_K_L.gguf | Q2_K_L | 4.03GB | 否 | 嵌入和輸出權重使用Q8_0。質量非常低,但出人意料地可用。 |
gemma-2-9b-it-abliterated-Q2_K.gguf | Q2_K | 3.81GB | 否 | 質量非常低,但出人意料地可用。 |
gemma-2-9b-it-abliterated-IQ2_M.gguf | IQ2_M | 3.43GB | 否 | 質量相對較低,使用最先進技術,出人意料地可用。 |
下載方式
使用huggingface-cli下載
首先,確保你已安裝huggingface-cli:
pip install -U "huggingface_hub[cli]"
然後,你可以指定要下載的特定文件:
huggingface-cli download bartowski/gemma-2-9b-it-abliterated-GGUF --include "gemma-2-9b-it-abliterated-Q4_K_M.gguf" --local-dir ./
如果模型大於50GB,它將被拆分為多個文件。要將它們全部下載到本地文件夾,請運行:
huggingface-cli download bartowski/gemma-2-9b-it-abliterated-GGUF --include "gemma-2-9b-it-abliterated-Q8_0/*" --local-dir ./
你可以指定一個新的本地目錄(如gemma-2-9b-it-abliterated-Q8_0),或者將它們全部下載到當前目錄(./)。
✨ 主要特性
- 多種量化類型:提供了豐富的量化類型,如f32、Q8_0、Q6_K_L等,滿足不同的性能和質量需求。
- 特定優化:部分量化版本(如Q3_K_XL、Q4_K_L等)對嵌入和輸出權重進行了特殊處理,可能提高模型質量。
- ARM優化:Q4_0_X_X量化版本針對ARM芯片進行了優化,可顯著提高推理速度。
📚 詳細文檔
提示格式
<bos><start_of_turn>system
{system_prompt}<end_of_turn>
<start_of_turn>user
{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model
嵌入/輸出權重
部分量化版本(如Q3_K_XL、Q4_K_L等)採用標準量化方法,將嵌入和輸出權重量化為Q8_0,而非默認值。有人認為這可以提高質量,也有人認為沒有明顯差異。如果你使用了這些模型,請分享你的使用結果,以便了解這些量化版本是否真正有用。
Q4_0_X_X量化版本
這些量化版本不適用於Metal(蘋果)卸載,僅適用於ARM芯片。如果你使用的是ARM芯片,Q4_0_X_X量化版本將顯著提高速度。你可以查看 原始拉取請求 上的Q4_0_4_4速度比較。要檢查哪個版本最適合你的ARM芯片,可以查看 AArch64 SoC特性 (感謝EloyOn!)。
如何選擇文件
Artefact2提供了一篇很棒的文章,帶有展示各種性能的圖表,可 點擊此處查看。 首先,你需要確定可以運行的模型大小。為此,你需要了解自己的系統內存(RAM)和/或顯存(VRAM)容量。
- 追求最快速度:如果你希望模型儘可能快地運行,應將整個模型加載到GPU的顯存中。選擇文件大小比GPU總顯存小1 - 2GB的量化版本。
- 追求最高質量:如果你追求絕對的最高質量,將系統內存和GPU顯存相加,然後選擇文件大小比該總和小1 - 2GB的量化版本。 接下來,你需要決定是否使用'I-quant'或'K-quant'。
- 不想過多思考:選擇K-quant,格式為'QX_K_X',如Q5_K_M。
- 深入瞭解:你可以查看 llama.cpp特性矩陣。一般來說,如果你希望量化級別低於Q4,並且使用cuBLAS(Nvidia)或rocBLAS(AMD),應考慮I-quant,格式為IQX_X,如IQ3_M。這些是較新的量化方法,在相同大小下提供更好的性能。I-quant也可在CPU和蘋果Metal上使用,但速度比K-quant慢,因此你需要在速度和性能之間進行權衡。此外,I-quant與Vulcan(也是AMD)不兼容,如果你使用AMD顯卡,請仔細檢查使用的是rocBLAS版本還是Vulcan版本。在撰寫本文時,LM Studio有一個支持ROCm的預覽版,其他推理引擎也有針對ROCm的特定版本。
📄 許可證
本項目使用的模型遵循gemma許可證。
🔗 相關鏈接
- 原始模型:https://huggingface.co/IlyaGusev/gemma-2-9b-it-abliterated
- llama.cpp倉庫:https://github.com/ggerganov/llama.cpp/
- llama.cpp發佈版本:https://github.com/ggerganov/llama.cpp/releases/tag/b3878
- 量化數據集:https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8
🙏 致謝
感謝kalomaze和Dampf協助創建imatrix校準數據集。 感謝ZeroWw啟發對嵌入/輸出進行實驗。
如果你想支持作者的工作,可以訪問 ko-fi頁面。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98