Gemma-3-27b-it重新量化開源模型 - 免費測試量化後性能表現

首頁

Gemma 3 27b It Qat Q4 0 GGUF

由Mungert開發

這是一個實驗性的重新量化模型，基於Google的Gemma-3-27b-it QAT Q4_0量化模型創建，旨在測試重新量化後的性能表現。

大型語言模型 #QAT量化優化 #低比特高性能 #代碼生成增強

下載量 1,096

發布時間 : 4/7/2025

模型概述

該模型是通過從Google原始的QAT Q4_0量化模型創建imatrix文件，然後使用這個imatrix將模型重新壓縮到更低的比特量化級別而得到的。主要用於測試QAT模型重新量化後是否比量化到相同比特級別的bf16模型表現更好。

模型特點

實驗性重新量化

通過從QAT Q4_0模型重新量化，測試是否比從bf16量化的模型表現更好。

性能優化

在測試中顯示出比標準量化模型更低的困惑度（4.10 vs 4.56）。

代碼生成能力

在代碼生成任務中表現出更好的技術準確性和代碼質量。

模型能力

文本生成

代碼生成

語言理解

文本轉換

使用案例

代碼生成

安全檢測代碼生成

生成檢測網站是否使用量子安全加密的.NET代碼

生成的代碼在技術準確性、代碼質量和安全性相關性方面優於標準量化模型

語言模型評估

困惑度測試

用於評估語言模型的困惑度表現

在測試中顯示出比標準量化模型更低的困惑度（4.10 vs 4.56）

🚀 gemma-3-27b-it-qat-q4_0 GGUF模型

本項目提供了gemma-3-27b-it-qat-q4_0的GGUF模型，對QAT模型重新量化進行了實驗，旨在測試其與相同比特級別的bf16模型量化後的性能差異。同時，還對模型的各方面特性進行了詳細介紹，包括模型信息、使用方法、訓練數據、評估結果等。

🚀 快速開始

運行模型示例

llama.cpp（僅文本）

./llama-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Write a poem about the Kraken."

llama.cpp（圖像輸入）

wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Describe this image." --image ~/Downloads/surprise.png

ollama（僅文本）

ollama run hf.co/google/gemma-3-27b-it-qat-q4_0-gguf

✨ 主要特性

多模態處理：支持文本和圖像輸入，生成文本輸出，適用於多種文本生成和圖像理解任務。
大上下文窗口：擁有128K的大上下文窗口，支持超過140種語言。
資源佔用小：相對較小的模型尺寸，可在資源有限的環境中部署，如筆記本電腦、桌面設備或自有云基礎設施。
性能提升：通過QAT量化，在顯著降低內存需求的同時，保持與bfloat16相近的質量。

📦 安裝指南

文檔未提及具體安裝步驟，可參考上述快速開始部分的代碼示例運行模型。

💻 使用示例

基礎用法

# llama.cpp（僅文本）
./llama-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Write a poem about the Kraken."

高級用法

# llama.cpp（圖像輸入）
wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Describe this image." --image ~/Downloads/surprise.png

📚 詳細文檔

模型信息

描述

Gemma是谷歌推出的一系列輕量級、先進的開源模型，基於與Gemini模型相同的研究和技術構建。Gemma 3模型是多模態的，能夠處理文本和圖像輸入，並生成文本輸出。其預訓練和指令調優變體的權重均開源。Gemma 3具有128K的大上下文窗口，支持超過140種語言，且比之前的版本有更多的尺寸可供選擇。該模型適用於各種文本生成和圖像理解任務，如問答、摘要和推理。其相對較小的尺寸使其能夠在資源有限的環境中部署，如筆記本電腦、桌面設備或自有云基礎設施，從而使更多人能夠使用先進的AI模型，促進創新。

輸入和輸出

輸入：
- 文本字符串，如問題、提示或待摘要的文檔。
- 圖像，歸一化為896 x 896分辨率，每個圖像編碼為256個標記。
- 4B、12B和27B尺寸的模型總輸入上下文為128K標記，1B尺寸的模型為32K標記。
輸出：
- 針對輸入生成的文本，如問題的答案、圖像內容的分析或文檔的摘要。
- 總輸出上下文為8192個標記。

模型數據

訓練數據集

這些模型在包含多種來源的文本數據集上進行訓練。27B模型使用14萬億個標記進行訓練，12B模型使用12萬億個標記，4B模型使用4萬億個標記，1B模型使用2萬億個標記。關鍵組成部分包括：

網頁文檔：多樣化的網頁文本集合，確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含超過140種語言的內容。
代碼：讓模型接觸代碼有助於學習編程語言的語法和模式，提高生成代碼和理解代碼相關問題的能力。
數學：在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和解決數學查詢。
圖像：廣泛的圖像使模型能夠執行圖像分析和視覺數據提取任務。

數據預處理

對訓練數據應用了以下關鍵的數據清理和過濾方法：

CSAM過濾：在數據準備過程的多個階段應用了嚴格的CSAM（兒童性虐待材料）過濾，以確保排除有害和非法內容。
敏感數據過濾：作為使Gemma預訓練模型安全可靠的一部分，使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
其他方法：根據內容質量和安全性進行過濾，符合[我們的政策][safety-policies]。

實現信息

硬件

Gemma使用[張量處理單元（TPU）][tpu]硬件（TPUv4p、TPUv5p和TPUv5e）進行訓練。訓練視覺語言模型（VLM）需要大量的計算能力。TPU專門為機器學習中常見的矩陣運算而設計，在這一領域具有以下優勢：

性能：TPU專門用於處理訓練VLM所需的大量計算，與CPU相比，可顯著加快訓練速度。
內存：TPU通常配備大量的高帶寬內存，允許在訓練過程中處理大型模型和批量大小，有助於提高模型質量。
可擴展性：TPU Pod（大型TPU集群）為處理大型基礎模型日益增長的複雜性提供了可擴展的解決方案。可以在多個TPU設備上分佈訓練，以實現更快、更高效的處理。
成本效益：在許多情況下，與基於CPU的基礎設施相比，TPU可以為訓練大型模型提供更具成本效益的解決方案，特別是考慮到更快的訓練速度所節省的時間和資源。
這些優勢符合[谷歌的可持續運營承諾][sustainability]。

軟件

使用[JAX][jax]和[ML Pathways][ml-pathways]進行訓練。 JAX使研究人員能夠利用最新一代的硬件（包括TPU），實現更快、更高效的大型模型訓練。ML Pathways是谷歌為構建能夠跨多個任務進行泛化的人工智能系統所做的最新努力，特別適用於基礎模型，包括此類大型語言模型。 JAX和ML Pathways的使用方式如[關於Gemini系列模型的論文][gemini-2-paper]中所述：“Jax和Pathways的‘單控制器’編程模型允許單個Python進程編排整個訓練過程，極大地簡化了開發工作流程。”

🔧 技術細節

量化實驗

作者進行了實驗，測試QAT模型重新量化後的性能是否優於相同比特級別的bf16模型量化後的性能。從谷歌原始的QAT Q4_0量化模型創建了imatrix文件，然後使用該imatrix將模型重新壓縮到更低的比特量化級別。作者使用從bf16量化的4b模型和從QAT Q4_0模型重新量化的模型進行了測試，兩種模型均使用相同的張量量化。

測試結果

困惑度測試

python3 ~/code/GGUFModelBuilder/perp_test_2_files.py ./gemma-3-4b-it-qat-q4_0-q3_k_l.gguf ./google_gemma-3-4b-it-q3_k_l.gguf 

Testing model: gemma-3-4b-it-qat-q4_0-q3_k_l.gguf
Running: llama.cpp/llama-perplexity -m gemma-3-4b-it-qat-q4_0-q3_k_l.gguf -f perplexity_test_data.txt --ctx-size 256 --ppl-stride 32 --chunks 1 --threads 4
[✓] Perplexity: 4.0963 (Time: 284.70s)

Testing model: google_gemma-3-4b-it-q3_k_l.gguf
Running: llama.cpp/llama-perplexity -m google_gemma-3-4b-it-q3_k_l.gguf -f perplexity_test_data.txt --ctx-size 256 --ppl-stride 32 --chunks 1 --threads 4
[✓] Perplexity: 4.5557 (Time: 287.15s)

=== Comparison Results ===
Model 1: gemma-3-4b-it-qat-q4_0-q3_k_l.gguf - Perplexity: 4.10 (Time: 284.70s)
Model 2: google_gemma-3-4b-it-q3_k_l.gguf - Perplexity: 4.56 (Time: 287.15s)

Winner: gemma-3-4b-it-qat-q4_0-q3_k_l.gguf (Difference: 0.46)

代碼測試

要求兩個模型編寫一些.NET代碼來測試網站是否使用量子安全加密，並讓Deepseek-R1進行評估。評估結果顯示，QAT q4_0模型的代碼在技術準確性、代碼質量、安全相關性、現實性和可用性方面均優於BF16模型。但兩個模型都存在對TLS/SSL機制的基本誤解，未能解決原始問題。要實現生產級解決方案，需要直接檢查TLS握手（例如通過SslStream）並支持後量子算法。

評估指標

推理和事實性

基準測試	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[HellaSwag][hellaswag]	10-shot	62.3	77.2	84.2	85.6
[BoolQ][boolq]	0-shot	63.2	72.3	78.8	82.4
[PIQA][piqa]	0-shot	73.8	79.6	81.8	83.3
[SocialIQA][socialiqa]	0-shot	48.9	51.9	53.4	54.9
[TriviaQA][triviaqa]	5-shot	39.8	65.8	78.2	85.5
[Natural Questions][naturalq]	5-shot	9.48	20.0	31.4	36.1
[ARC-c][arc]	25-shot	38.4	56.2	68.9	70.6
[ARC-e][arc]	0-shot	73.0	82.4	88.3	89.0
[WinoGrande][winogrande]	5-shot	58.2	64.7	74.3	78.8
[BIG-Bench Hard][bbh]	few-shot	28.4	50.9	72.6	77.7
[DROP][drop]	1-shot	42.4	60.1	72.2	77.2

STEM和代碼

基準測試	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MMLU][mmlu]	5-shot	59.6	74.5	78.6
[MMLU][mmlu] (Pro COT)	5-shot	29.2	45.3	52.2
[AGIEval][agieval]	3 - 5-shot	42.1	57.4	66.2
[MATH][math]	4-shot	24.2	43.3	50.0
[GSM8K][gsm8k]	8-shot	38.4	71.0	82.6
[GPQA][gpqa]	5-shot	15.0	25.4	24.3
[MBPP][mbpp]	3-shot	46.0	60.4	65.6
[HumanEval][humaneval]	0-shot	36.0	45.7	48.8

多語言

基準測試	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MGSM][mgsm]	2.04	34.7	64.3	74.3
[Global-MMLU-Lite][global-mmlu-lite]	24.9	57.0	69.4	75.7
[WMT24++][wmt24pp] (ChrF)	36.7	48.4	53.9	55.7
[FloRes][flores]	29.5	39.2	46.0	48.8
[XQuAD][xquad] (all)	43.9	68.0	74.5	76.8
[ECLeKTic][eclektic]	4.69	11.0	17.2	24.4
[IndicGenBench][indicgenbench]	41.4	57.2	61.7	63.4

多模態

基準測試	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[COCOcap][coco-cap]	102	111	116
[DocVQA][docvqa] (val)	72.8	82.3	85.6
[InfoVQA][info-vqa] (val)	44.1	54.8	59.4
[MMMU][mmmu] (pt)	39.2	50.3	56.1
[TextVQA][textvqa] (val)	58.9	66.5	68.6
[RealWorldQA][realworldqa]	45.5	52.2	53.9
[ReMI][remi]	27.3	38.5	44.8
[AI2D][ai2d]	63.2	75.2	79.0
[ChartQA][chartqa]	63.6	74.7	76.3
[VQAv2][vqav2]	63.9	71.2	72.9
[BLINK][blinkvqa]	38.0	35.9	39.6
[OKVQA][okvqa]	51.0	58.7	60.2
[TallyQA][tallyqa]	42.5	51.8	54.3
[SpatialSense VQA][ss-vqa]	50.9	60.0	59.4
[CountBenchQA][countbenchqa]	26.1	17.8	68.0

倫理和安全

評估方法

評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行，每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行評估，包括：

兒童安全：評估文本到文本和圖像到文本的提示，涵蓋兒童安全政策，包括兒童性虐待和剝削。
內容安全：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括騷擾、暴力和血腥內容以及仇恨言論。
代表性危害：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括偏見、刻板印象以及有害關聯或不準確信息。除了開發階段的評估，還進行“保證評估”，這是我們獨立的內部評估，用於責任治理決策。這些評估與模型開發團隊分開進行，為發佈決策提供信息。高級別的評估結果會反饋給模型團隊，但提示集不會公開，以防止過擬合併保持結果對決策的參考價值。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。

評估結果

在所有安全測試領域，相對於之前的Gemma模型，在兒童安全、內容安全和代表性危害方面都有顯著改進。所有測試均在不使用安全過濾器的情況下進行，以評估模型的能力和行為。對於文本到文本和圖像到文本，以及所有模型尺寸，模型產生的政策違規極少，並且在無根據推斷方面相對於之前的Gemma模型有顯著改進。評估的一個侷限性是隻包括英語提示。

使用和限制

預期用途

開源視覺語言模型（VLM）在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面，其目的是提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。

內容創作和通信：
- 文本生成：可用於生成創意文本格式，如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式AI：為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要：生成文本語料庫、研究論文或報告的簡潔摘要。
- 圖像數據提取：用於提取、解釋和總結視覺數據，用於文本通信。
研究和教育：
- 自然語言處理（NLP）和VLM研究：可作為研究人員實驗VLM和NLP技術、開發算法以及推動該領域發展的基礎。
- 語言學習工具：支持交互式語言學習體驗，幫助進行語法糾正或提供寫作練習。
- 知識探索：幫助研究人員通過生成摘要或回答特定主題的問題來探索大量文本。

限制

訓練數據：
- 訓練數據的質量和多樣性會顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
上下文和任務複雜性：
- 模型更擅長能夠用清晰提示和指令描述的任務。開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受到提供的上下文量的影響（在一定程度上，更長的上下文通常會導致更好的輸出）。
語言歧義與細微差別：自然語言本質上是複雜的，模型可能難以理解微妙的細微差別、諷刺或比喻語言。
事實準確性：模型根據從訓練數據集中學習到的信息生成響應，但它們不是知識庫，可能會生成不正確或過時的事實陳述。
常識：模型依賴於語言中的統計模式，可能在某些情況下缺乏應用常識推理的能力。

倫理考慮和風險

視覺語言模型（VLM）的開發引發了一些倫理問題。在創建開源模型時，我們仔細考慮了以下方面：

偏差和公平性：在大規模真實世界文本和圖像數據上訓練的VLM可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查、輸入數據預處理，並在本卡片中報告了後續評估結果。
錯誤信息和濫用：VLM可能被濫用來生成虛假、誤導或有害的文本。提供了負責任使用模型的指南，見[負責任的生成式AI工具包][rai-toolkit]。
透明度和問責制：本模型卡片總結了模型的架構、能力、限制和評估過程的詳細信息。負責任開發的開源模型為整個AI生態系統的開發者和研究人員提供了共享創新和使用VLM技術的機會。識別的風險和緩解措施：
偏差的延續：鼓勵在模型訓練、微調及其他用例中進行持續監測（使用評估指標、人工審查）並探索去偏技術。
有害內容的生成：內容安全機制和指南至關重要。鼓勵開發者根據其特定的產品政策和應用用例謹慎行事並實施適當的內容安全保障措施。
惡意使用：技術限制以及對開發者和最終用戶的教育有助於減輕VLM的惡意應用。提供了教育資源和用戶舉報濫用行為的機制。Gemma模型的禁止使用情況在[Gemma禁止使用政策][prohibited-use]中列出。
隱私侵犯：模型在經過過濾以去除某些個人信息和其他敏感數據的數據集上進行訓練。鼓勵開發者遵守隱私法規並採用隱私保護技術。

📄 許可證

本項目使用的許可證為gemma。

要在Hugging Face上訪問Gemma，您需要審查並同意Google的使用許可。為此，請確保您已登錄Hugging Face並點擊下方按鈕。請求將立即處理。 [確認許可](Acknowledge license)

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

資源和技術文檔

[Gemma 3技術報告][g3-tech-report]
[負責任的生成式AI工具包][rai-toolkit]
[Kaggle上的Gemma][kaggle-gemma]
[Vertex模型花園中的Gemma 3][vertex-mg-gemma3]

使用條款

[條款][terms]

作者

Google DeepMind

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫