🚀 GemmaX2-28-2B GGUF量化模型卡
GemmaX2-28-2B GGUF量化模型
是基於小米開發的大語言模型(LLM)翻譯模型GemmaX2-28-2B-v0.1
的量化版本。該模型支持28種語言的翻譯,經過量化處理後,能在資源受限的環境中高效推理,同時保留翻譯能力。
🚀 快速開始
使用Transformers(原始模型)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我愛機器翻譯\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
使用GGUF(量化模型)
從Tonic/GemmaX2-28-2B-gguf
下載GGUF文件,並使用與GGUF兼容的推理工具(如llama.cpp
)進行推理:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我愛機器翻譯"
可用的文件:
gemmax2-28-2b-f16.gguf
gemmax2-28-2b-bf16.gguf
gemmax2-28-2b-q8_0.gguf
gemmax2-28-2b-tq1_0.gguf
gemmax2-28-2b-tq2_0.gguf
✨ 主要特性
- 多語言支持:支持阿拉伯語、孟加拉語、捷克語、德語、英語、西班牙語、波斯語、法語、希伯來語、印地語、印尼語、意大利語、日語、高棉語、韓語、老撾語、馬來語、緬甸語、荷蘭語、波蘭語、葡萄牙語、俄語、泰語、他加祿語、土耳其語、烏爾都語、越南語和中文等28種語言。
- 量化優化:提供多種量化格式(
f16
、bf16
、q8_0
、tq1_0
、tq2_0
),可在資源受限的環境中高效推理。
- 高效部署:可使用
convert_hf_to_gguf.py
將原始的Hugging Face模型轉換為與llama.cpp
等工具兼容的格式,便於部署。
📦 安裝指南
本部分文檔未提供具體安裝步驟,可參考上述快速開始部分的代碼示例進行安裝和使用。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我愛機器翻譯\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
高級用法
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我愛機器翻譯"
📚 詳細文檔
模型概述
GemmaX2-28-2B GGUF量化模型
是GemmaX2-28-2B-v0.1
的量化版本。原始模型基於GemmaX2-28-2B-Pretrain
微調而來,該預訓練模型在28種語言的單語和並行數據(560億個標記)上進行了預訓練。這些GGUF版本由Tonic進行量化,旨在優化模型在資源受限環境中的推理效率,同時保留翻譯能力。
模型描述
GemmaX2-28-2B-v0.1
專為多語言機器翻譯而設計,基於GemmaX2-28-2B-Pretrain
構建。微調過程使用了一小部分高質量的翻譯指令數據來提升性能。這些GGUF量化版本使用convert_hf_to_gguf.py
生成,將原始的Hugging Face模型轉換為與llama.cpp
等工具兼容的格式,便於高效部署。
量化詳情
- 源模型:
ModelSpace/GemmaX2-28-2B-v0.1
- 轉換工具:
convert_hf_to_gguf.py
- 量化類型:
f16
:16位浮點數,精度損失最小,文件大小較大(約5 - 7GB)。
bf16
:腦浮點16位,針對某些硬件(如TPU)進行了優化,文件大小與f16
相似。
q8_0
:8位量化,文件大小減小(約3 - 4GB),精度略有損失。
tq1_0
:三元量化(1位),文件大小最小(約1 - 2GB),精度損失較大。
tq2_0
:三元量化(2位變體),文件大小比tq1_0
略大,在大小和質量之間取得平衡。
預期用途
- 多語言翻譯:支持28種語言的文本翻譯。
- 高效推理:可部署在邊緣設備、低內存系統或計算資源有限的環境中,使用與GGUF兼容的框架(如
llama.cpp
)。
- 研究:研究量化級別與翻譯性能之間的權衡。
使用案例
- 即時翻譯應用。
- 移動或嵌入式設備上的離線翻譯。
- 在多語言環境中對量化大語言模型的性能進行基準測試。
模型性能
原始GemmaX2-28-2B-v0.1
模型的性能在論文Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study中有詳細描述。量化會引入不同程度的性能權衡:
f16
和bf16
:與原始模型的準確率幾乎相同,性能下降最小。
q8_0
:翻譯質量略有下降,但仍適用於大多數實際應用。
tq1_0
和tq2_0
:質量損失明顯,最適合優先考慮速度和大小而非精度的場景。
具體指標取決於下游任務和數據集,建議用戶根據具體用例評估性能。
侷限性
- 語言支持:僅支持上述28種語言,不保證對未支持語言的性能。
- 量化權衡:低比特量化(
tq1_0
、tq2_0
)可能會降低翻譯質量,尤其是對於複雜句子或罕見語言對。
- 硬件兼容性:
bf16
需要特定的硬件支持(如NVIDIA Ampere GPU、TPU),否則性能可能會有所不同。
- 未來改進:原始作者計劃提升
GemmaX2-28-2B
的翻譯能力,這些量化版本可能需要更新才能反映這些改進。
🔧 技術細節
本部分文檔未提供具體技術細節,可參考上述詳細文檔部分的內容。
📄 許可證
本模型使用[Apache 2.0]許可證。
📚 引用
對於原始模型,請使用以下引用:
@misc{cui2025multilingualmachinetranslationopen,
title={Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study},
author={Menglong Cui and Pengzhi Gao and Wei Liu and Jian Luan and Bin Wang},
year={2025},
eprint={2502.02481},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02481},
}
對於這些量化版本,請同時註明:
📞 聯繫我們
如有關於原始模型的問題,請參考小米的相關出版物。如有關於GGUF量化版本的問題,請通過Hugging Face討論區Tonic/GemmaX2-28-2B-gguf
聯繫Tonic。