GemmaX2-28-2B-gguf開源翻譯模型 - 免費支持28種語言的多語言翻譯

首頁

Gemmax2 28 2B Gguf

由Tonic開發

GemmaX2-28-2B GGUF量化模型是基於GemmaX2-28-2B-v0.1的一系列量化變體，專為多語言機器翻譯設計，支持28種語言。

機器翻譯支持多種語言開源協議:Apache-2.0 #多語言翻譯 #GGUF量化 #邊緣部署

下載量 258

發布時間 : 2/26/2025

模型概述

該模型是從GemmaX2-28-2B-Pretrain微調而來，專為多語言機器翻譯設計。GGUF量化版本優化了模型，使其在資源受限的環境中高效推理，同時保留翻譯能力。

模型特點

多語言支持

支持28種語言的翻譯任務，覆蓋廣泛的語言需求。

高效推理

通過GGUF量化優化，適合在資源受限的環境中部署，如邊緣設備和低內存系統。

多種量化格式

提供多種量化格式（f16、bf16、q8_0、tq1_0、tq2_0），滿足不同精度和性能需求。

模型能力

多語言翻譯

高效推理

量化優化

使用案例

即時翻譯

移動設備翻譯

在移動設備上實現離線多語言翻譯。

高效推理，低延遲。

研究

量化性能研究

研究量化級別與翻譯性能之間的權衡。

提供多種量化格式供選擇。

🚀 GemmaX2-28-2B GGUF量化模型卡

GemmaX2-28-2B GGUF量化模型是基於小米開發的大語言模型翻譯模型GemmaX2-28-2B-v0.1的一組量化變體。該模型可用於28種語言的翻譯任務，通過量化處理，能在資源受限的環境中高效推理，同時保留翻譯能力。

🚀 快速開始

使用Transformers庫（原始模型）

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "Translate this from Chinese to English:\nChinese: 我愛機器翻譯\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

使用GGUF（量化模型）

從Tonic/GemmaX2-28-2B-gguf下載GGUF文件，並使用與GGUF兼容的推理工具（如llama.cpp）：

# Example with llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

# Run inference with q8_0 model
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我愛機器翻譯\nEnglish:"

可用文件：

gemmax2-28-2b-f16.gguf
gemmax2-28-2b-bf16.gguf
gemmax2-28-2b-q8_0.gguf
gemmax2-28-2b-tq1_0.gguf
gemmax2-28-2b-tq2_0.gguf

✨ 主要特性

多語言支持：支持阿拉伯語、孟加拉語、捷克語、德語、英語、西班牙語等28種語言的翻譯。
量化優化：提供多種量化格式（f16、bf16、q8_0、tq1_0、tq2_0），可在資源受限的環境中高效推理。
高性能：在翻譯任務中表現出色，ROUGE指標達到0.6230，BLEU指標達到0.6358。

📦 安裝指南

文檔中未提及具體安裝步驟，可參考上述快速開始部分的代碼示例進行使用。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "Translate this from Chinese to English:\nChinese: 我愛機器翻譯\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

高級用法

# Example with llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

# Run inference with q8_0 model
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我愛機器翻譯\nEnglish:"

📚 詳細文檔

模型概述

GemmaX2-28-2B GGUF量化模型是GemmaX2-28-2B-v0.1的一組量化變體。原始模型基於GemmaX2-28-2B-Pretrain進行微調，該預訓練模型使用了包含28種語言的560億個標記的多樣化數據集進行持續預訓練。這些GGUF版本（f16、bf16、q8_0、tq1_0、tq2_0）旨在優化模型，使其在資源受限的環境中進行高效推理，同時保留翻譯能力。

開發者：小米（原始模型）；Tonic（量化處理）
模型類型：基於Transformer的語言模型，針對翻譯任務進行微調，並量化為GGUF格式
量化格式：f16（16位浮點數）、bf16（腦浮點16位）、q8_0（8位量化）、tq1_0（三元量化1）、tq2_0（三元量化2）
支持語言：阿拉伯語、孟加拉語、捷克語、德語、英語、西班牙語、波斯語、法語、希伯來語、印地語、印尼語、意大利語、日語、高棉語、韓語、老撾語、馬來語、緬甸語、荷蘭語、波蘭語、葡萄牙語、俄語、泰語、他加祿語、土耳其語、烏爾都語、越南語、中文
許可證：[Apache 2.0]
倉庫地址：Tonic/GemmaX2-28-2B-gguf

模型描述

GemmaX2-28-2B-v0.1專為多語言機器翻譯而設計，基於GemmaX2-28-2B-Pretrain構建，該預訓練模型在包含28種語言的單語和並行數據（560億個標記）上進行了預訓練。微調過程使用了一小部分高質量的翻譯指令數據來提升其性能。這些GGUF量化模型使用convert_hf_to_gguf.py生成，將原始的Hugging Face模型轉換為與llama.cpp等工具兼容的格式，以便進行高效部署。

量化細節

源模型：ModelSpace/GemmaX2-28-2B-v0.1
轉換工具：convert_hf_to_gguf.py
量化類型：
- f16：16位浮點數，精度損失最小，文件大小較大（約5 - 7GB）。
- bf16：腦浮點16位，針對某些硬件（如TPU）進行了優化，大小與f16相似。
- q8_0：8位量化，文件大小減小（約3 - 4GB），精度略有損失。
- tq1_0：三元量化（1位），文件大小最小（約1 - 2GB），精度損失較大。
- tq2_0：三元量化（2位變體），比tq1_0略大，在大小和質量之間取得平衡。

預期用途

這些量化模型適用於以下場景：

多語言翻譯：在28種支持的語言之間進行文本翻譯。
高效推理：使用與GGUF兼容的框架（如llama.cpp），在邊緣設備、低內存系統或計算資源有限的環境中進行部署。
研究：研究量化級別與翻譯性能之間的權衡。

使用案例

即時翻譯應用程序。
移動或嵌入式設備上的離線翻譯。
在多語言環境中對量化大語言模型的性能進行基準測試。

模型性能

原始GemmaX2-28-2B-v0.1模型的性能在論文Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study中有詳細描述。量化會引入不同程度的性能權衡：

f16和bf16：與原始模型的準確性幾乎相同，性能下降最小。
q8_0：翻譯質量略有下降，但仍適用於大多數實際應用。
tq1_0和tq2_0：質量損失明顯，最適合優先考慮速度和大小而非精度的場景。

具體指標取決於下游任務和數據集，建議用戶針對特定用例評估性能。

侷限性

語言支持：僅支持上述28種語言，不保證在不支持的語言上的性能。
量化權衡：低比特量化（tq1_0、tq2_0）可能會降低翻譯質量，尤其是對於複雜句子或罕見語言對。
硬件兼容性：bf16需要特定的硬件支持（如NVIDIA Ampere GPU、TPU），否則性能可能會有所不同。
未來改進：原始作者計劃提升GemmaX2-28-2B的翻譯能力，這些量化版本可能需要更新後才能反映這些改進。

引用信息

對於原始模型：

@misc{cui2025multilingualmachinetranslationopen,
  title={Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study},
  author={Menglong Cui and Pengzhi Gao and Wei Liu and Jian Luan and Bin Wang},
  year={2025},
  eprint={2502.02481},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2502.02481},
}

對於這些量化版本，請同時註明：

量化處理：Tonic
倉庫地址：Tonic/GemmaX2-28-2B-gguf

聯繫信息

有關原始模型的問題，請參考小米的相關出版物。對於GGUF量化模型的問題，請通過Hugging Face討論區Tonic/GemmaX2-28-2B-gguf聯繫Tonic。

🔧 技術細節

文檔中未提供具體的技術實現細節。

📄 許可證

本模型使用[Apache 2.0]許可證。

📋 模型信息表格

屬性	詳情
模型類型	基於Transformer的語言模型，針對翻譯任務進行微調，並量化為GGUF格式
訓練數據	基於`GemmaX2-28-2B-Pretrain`，該預訓練模型在包含28種語言的單語和並行數據（560億個標記）上進行了預訓練。微調過程使用了一小部分高質量的翻譯指令數據。
支持語言	阿拉伯語、孟加拉語、捷克語、德語、英語、西班牙語、波斯語、法語、希伯來語、印地語、印尼語、意大利語、日語、高棉語、韓語、老撾語、馬來語、緬甸語、荷蘭語、波蘭語、葡萄牙語、俄語、泰語、他加祿語、土耳其語、烏爾都語、越南語、中文
量化格式	`f16`（16位浮點數）、`bf16`（腦浮點16位）、`q8_0`（8位量化）、`tq1_0`（三元量化1）、`tq2_0`（三元量化2）
許可證	[Apache 2.0]
倉庫地址	Tonic/GemmaX2-28-2B-gguf