🚀 GemmaX2-28-2B GGUF量化模型卡
GemmaX2-28-2B GGUF量化模型
是基于小米开发的大语言模型(LLM)翻译模型GemmaX2-28-2B-v0.1
的量化版本。该模型支持28种语言的翻译,经过量化处理后,能在资源受限的环境中高效推理,同时保留翻译能力。
🚀 快速开始
使用Transformers(原始模型)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我爱机器翻译\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
使用GGUF(量化模型)
从Tonic/GemmaX2-28-2B-gguf
下载GGUF文件,并使用与GGUF兼容的推理工具(如llama.cpp
)进行推理:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我爱机器翻译"
可用的文件:
gemmax2-28-2b-f16.gguf
gemmax2-28-2b-bf16.gguf
gemmax2-28-2b-q8_0.gguf
gemmax2-28-2b-tq1_0.gguf
gemmax2-28-2b-tq2_0.gguf
✨ 主要特性
- 多语言支持:支持阿拉伯语、孟加拉语、捷克语、德语、英语、西班牙语、波斯语、法语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、缅甸语、荷兰语、波兰语、葡萄牙语、俄语、泰语、他加禄语、土耳其语、乌尔都语、越南语和中文等28种语言。
- 量化优化:提供多种量化格式(
f16
、bf16
、q8_0
、tq1_0
、tq2_0
),可在资源受限的环境中高效推理。
- 高效部署:可使用
convert_hf_to_gguf.py
将原始的Hugging Face模型转换为与llama.cpp
等工具兼容的格式,便于部署。
📦 安装指南
本部分文档未提供具体安装步骤,可参考上述快速开始部分的代码示例进行安装和使用。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我爱机器翻译\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
高级用法
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我爱机器翻译"
📚 详细文档
模型概述
GemmaX2-28-2B GGUF量化模型
是GemmaX2-28-2B-v0.1
的量化版本。原始模型基于GemmaX2-28-2B-Pretrain
微调而来,该预训练模型在28种语言的单语和并行数据(560亿个标记)上进行了预训练。这些GGUF版本由Tonic进行量化,旨在优化模型在资源受限环境中的推理效率,同时保留翻译能力。
模型描述
GemmaX2-28-2B-v0.1
专为多语言机器翻译而设计,基于GemmaX2-28-2B-Pretrain
构建。微调过程使用了一小部分高质量的翻译指令数据来提升性能。这些GGUF量化版本使用convert_hf_to_gguf.py
生成,将原始的Hugging Face模型转换为与llama.cpp
等工具兼容的格式,便于高效部署。
量化详情
- 源模型:
ModelSpace/GemmaX2-28-2B-v0.1
- 转换工具:
convert_hf_to_gguf.py
- 量化类型:
f16
:16位浮点数,精度损失最小,文件大小较大(约5 - 7GB)。
bf16
:脑浮点16位,针对某些硬件(如TPU)进行了优化,文件大小与f16
相似。
q8_0
:8位量化,文件大小减小(约3 - 4GB),精度略有损失。
tq1_0
:三元量化(1位),文件大小最小(约1 - 2GB),精度损失较大。
tq2_0
:三元量化(2位变体),文件大小比tq1_0
略大,在大小和质量之间取得平衡。
预期用途
- 多语言翻译:支持28种语言的文本翻译。
- 高效推理:可部署在边缘设备、低内存系统或计算资源有限的环境中,使用与GGUF兼容的框架(如
llama.cpp
)。
- 研究:研究量化级别与翻译性能之间的权衡。
使用案例
- 实时翻译应用。
- 移动或嵌入式设备上的离线翻译。
- 在多语言环境中对量化大语言模型的性能进行基准测试。
模型性能
原始GemmaX2-28-2B-v0.1
模型的性能在论文Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study中有详细描述。量化会引入不同程度的性能权衡:
f16
和bf16
:与原始模型的准确率几乎相同,性能下降最小。
q8_0
:翻译质量略有下降,但仍适用于大多数实际应用。
tq1_0
和tq2_0
:质量损失明显,最适合优先考虑速度和大小而非精度的场景。
具体指标取决于下游任务和数据集,建议用户根据具体用例评估性能。
局限性
- 语言支持:仅支持上述28种语言,不保证对未支持语言的性能。
- 量化权衡:低比特量化(
tq1_0
、tq2_0
)可能会降低翻译质量,尤其是对于复杂句子或罕见语言对。
- 硬件兼容性:
bf16
需要特定的硬件支持(如NVIDIA Ampere GPU、TPU),否则性能可能会有所不同。
- 未来改进:原始作者计划提升
GemmaX2-28-2B
的翻译能力,这些量化版本可能需要更新才能反映这些改进。
🔧 技术细节
本部分文档未提供具体技术细节,可参考上述详细文档部分的内容。
📄 许可证
本模型使用[Apache 2.0]许可证。
📚 引用
对于原始模型,请使用以下引用:
@misc{cui2025multilingualmachinetranslationopen,
title={Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study},
author={Menglong Cui and Pengzhi Gao and Wei Liu and Jian Luan and Bin Wang},
year={2025},
eprint={2502.02481},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02481},
}
对于这些量化版本,请同时注明:
📞 联系我们
如有关于原始模型的问题,请参考小米的相关出版物。如有关于GGUF量化版本的问题,请通过Hugging Face讨论区Tonic/GemmaX2-28-2B-gguf
联系Tonic。