模型概述
模型特點
模型能力
使用案例
🚀 GemmaX2-28-2B GGUF量化模型卡
GemmaX2-28-2B GGUF量化模型是基於小米開發的大語言模型翻譯模型GemmaX2-28-2B-v0.1
的一組量化變體。該模型可用於28種語言的翻譯任務,通過量化處理,能在資源受限的環境中高效推理,同時保留翻譯能力。
🚀 快速開始
使用Transformers庫(原始模型)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我愛機器翻譯\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
使用GGUF(量化模型)
從Tonic/GemmaX2-28-2B-gguf
下載GGUF文件,並使用與GGUF兼容的推理工具(如llama.cpp
):
# Example with llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
# Run inference with q8_0 model
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我愛機器翻譯\nEnglish:"
可用文件:
gemmax2-28-2b-f16.gguf
gemmax2-28-2b-bf16.gguf
gemmax2-28-2b-q8_0.gguf
gemmax2-28-2b-tq1_0.gguf
gemmax2-28-2b-tq2_0.gguf
✨ 主要特性
- 多語言支持:支持阿拉伯語、孟加拉語、捷克語、德語、英語、西班牙語等28種語言的翻譯。
- 量化優化:提供多種量化格式(
f16
、bf16
、q8_0
、tq1_0
、tq2_0
),可在資源受限的環境中高效推理。 - 高性能:在翻譯任務中表現出色,ROUGE指標達到0.6230,BLEU指標達到0.6358。
📦 安裝指南
文檔中未提及具體安裝步驟,可參考上述快速開始部分的代碼示例進行使用。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我愛機器翻譯\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
高級用法
# Example with llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
# Run inference with q8_0 model
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我愛機器翻譯\nEnglish:"
📚 詳細文檔
模型概述
GemmaX2-28-2B GGUF量化模型是GemmaX2-28-2B-v0.1
的一組量化變體。原始模型基於GemmaX2-28-2B-Pretrain
進行微調,該預訓練模型使用了包含28種語言的560億個標記的多樣化數據集進行持續預訓練。這些GGUF版本(f16
、bf16
、q8_0
、tq1_0
、tq2_0
)旨在優化模型,使其在資源受限的環境中進行高效推理,同時保留翻譯能力。
- 開發者:小米(原始模型);Tonic(量化處理)
- 模型類型:基於Transformer的語言模型,針對翻譯任務進行微調,並量化為GGUF格式
- 量化格式:
f16
(16位浮點數)、bf16
(腦浮點16位)、q8_0
(8位量化)、tq1_0
(三元量化1)、tq2_0
(三元量化2) - 支持語言:阿拉伯語、孟加拉語、捷克語、德語、英語、西班牙語、波斯語、法語、希伯來語、印地語、印尼語、意大利語、日語、高棉語、韓語、老撾語、馬來語、緬甸語、荷蘭語、波蘭語、葡萄牙語、俄語、泰語、他加祿語、土耳其語、烏爾都語、越南語、中文
- 許可證:[Apache 2.0]
- 倉庫地址:Tonic/GemmaX2-28-2B-gguf
模型描述
GemmaX2-28-2B-v0.1
專為多語言機器翻譯而設計,基於GemmaX2-28-2B-Pretrain
構建,該預訓練模型在包含28種語言的單語和並行數據(560億個標記)上進行了預訓練。微調過程使用了一小部分高質量的翻譯指令數據來提升其性能。這些GGUF量化模型使用convert_hf_to_gguf.py
生成,將原始的Hugging Face模型轉換為與llama.cpp
等工具兼容的格式,以便進行高效部署。
量化細節
- 源模型:
ModelSpace/GemmaX2-28-2B-v0.1
- 轉換工具:
convert_hf_to_gguf.py
- 量化類型:
f16
:16位浮點數,精度損失最小,文件大小較大(約5 - 7GB)。bf16
:腦浮點16位,針對某些硬件(如TPU)進行了優化,大小與f16
相似。q8_0
:8位量化,文件大小減小(約3 - 4GB),精度略有損失。tq1_0
:三元量化(1位),文件大小最小(約1 - 2GB),精度損失較大。tq2_0
:三元量化(2位變體),比tq1_0
略大,在大小和質量之間取得平衡。
預期用途
這些量化模型適用於以下場景:
- 多語言翻譯:在28種支持的語言之間進行文本翻譯。
- 高效推理:使用與GGUF兼容的框架(如
llama.cpp
),在邊緣設備、低內存系統或計算資源有限的環境中進行部署。 - 研究:研究量化級別與翻譯性能之間的權衡。
使用案例
- 即時翻譯應用程序。
- 移動或嵌入式設備上的離線翻譯。
- 在多語言環境中對量化大語言模型的性能進行基準測試。
模型性能
原始GemmaX2-28-2B-v0.1
模型的性能在論文Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study中有詳細描述。量化會引入不同程度的性能權衡:
f16
和bf16
:與原始模型的準確性幾乎相同,性能下降最小。q8_0
:翻譯質量略有下降,但仍適用於大多數實際應用。tq1_0
和tq2_0
:質量損失明顯,最適合優先考慮速度和大小而非精度的場景。
具體指標取決於下游任務和數據集,建議用戶針對特定用例評估性能。
侷限性
- 語言支持:僅支持上述28種語言,不保證在不支持的語言上的性能。
- 量化權衡:低比特量化(
tq1_0
、tq2_0
)可能會降低翻譯質量,尤其是對於複雜句子或罕見語言對。 - 硬件兼容性:
bf16
需要特定的硬件支持(如NVIDIA Ampere GPU、TPU),否則性能可能會有所不同。 - 未來改進:原始作者計劃提升
GemmaX2-28-2B
的翻譯能力,這些量化版本可能需要更新後才能反映這些改進。
引用信息
對於原始模型:
@misc{cui2025multilingualmachinetranslationopen,
title={Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study},
author={Menglong Cui and Pengzhi Gao and Wei Liu and Jian Luan and Bin Wang},
year={2025},
eprint={2502.02481},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02481},
}
對於這些量化版本,請同時註明:
- 量化處理:Tonic
- 倉庫地址:Tonic/GemmaX2-28-2B-gguf
聯繫信息
有關原始模型的問題,請參考小米的相關出版物。對於GGUF量化模型的問題,請通過Hugging Face討論區Tonic/GemmaX2-28-2B-gguf
聯繫Tonic。
🔧 技術細節
文檔中未提供具體的技術實現細節。
📄 許可證
本模型使用[Apache 2.0]許可證。
📋 模型信息表格
屬性 | 詳情 |
---|---|
模型類型 | 基於Transformer的語言模型,針對翻譯任務進行微調,並量化為GGUF格式 |
訓練數據 | 基於GemmaX2-28-2B-Pretrain ,該預訓練模型在包含28種語言的單語和並行數據(560億個標記)上進行了預訓練。微調過程使用了一小部分高質量的翻譯指令數據。 |
支持語言 | 阿拉伯語、孟加拉語、捷克語、德語、英語、西班牙語、波斯語、法語、希伯來語、印地語、印尼語、意大利語、日語、高棉語、韓語、老撾語、馬來語、緬甸語、荷蘭語、波蘭語、葡萄牙語、俄語、泰語、他加祿語、土耳其語、烏爾都語、越南語、中文 |
量化格式 | f16 (16位浮點數)、bf16 (腦浮點16位)、q8_0 (8位量化)、tq1_0 (三元量化1)、tq2_0 (三元量化2) |
許可證 | [Apache 2.0] |
倉庫地址 | Tonic/GemmaX2-28-2B-gguf |



