🚀 GemmaX2-28-2B GGUF 量子化モデルカード
GemmaX2-28-2B GGUF 量子化モデルは、Xiaomiによって開発されたLLMベースの翻訳モデル GemmaX2-28-2B-v0.1
の量子化バリアントです。元のモデルは GemmaX2-28-2B-Pretrain
から微調整され、これ自体は Gemma2-2B
の継続的事前学習バージョンで、28の言語にわたる560億トークンの多様なデータセットを使用しています。これらのGGUFバージョン (f16
, bf16
, q8_0
, tq1_0
, tq2_0
) は、翻訳能力を維持しながら、リソースが制限された環境での効率的な推論のために最適化されています。
🚀 クイックスタート
このモデルは、多言語の機械翻訳に使用できます。以下に、transformers
ライブラリとGGUF形式での使用例を示します。
✨ 主な機能
- 多言語対応:28の言語をサポートし、多言語間の翻訳が可能です。
- 量子化形式:複数の量子化形式 (
f16
, bf16
, q8_0
, tq1_0
, tq2_0
) が用意されており、リソース制限のある環境でも効率的に使用できます。
📦 インストール
Transformersライブラリを使用する場合
transformers
ライブラリをインストールし、元のモデルを使用できます。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我爱机器翻译\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
GGUF形式の量子化モデルを使用する場合
Tonic/GemmaX2-28-2B-gguf
からGGUFファイルをダウンロードし、llama.cpp
のようなGGUF互換の推論ツールで使用します。
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我爱机器翻译\nEnglish:"
利用可能なファイル:
gemmax2-28-2b-f16.gguf
gemmax2-28-2b-bf16.gguf
gemmax2-28-2b-q8_0.gguf
gemmax2-28-2b-tq1_0.gguf
gemmax2-28-2b-tq2_0.gguf
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我爱机器翻译\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
高度な使用法
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我爱机器翻译\nEnglish:"
📚 ドキュメント
モデルの詳細
GemmaX2-28-2B-v0.1
は、多言語の機械翻訳を目的として設計されています。元のモデルは、28の言語にわたる単言語と並列データ (560億トークン) で事前学習された GemmaX2-28-2B-Pretrain
をベースにしています。微調整プロセスでは、翻訳命令データの小規模で高品質なセットを使用して、パフォーマンスを向上させています。これらのGGUF量子化は、convert_hf_to_gguf.py
を使用して生成され、元のHugging Faceモデルを llama.cpp
などのツールと互換性のある形式に変換しています。
量子化の詳細
- ソースモデル:
ModelSpace/GemmaX2-28-2B-v0.1
- 変換ツール:
convert_hf_to_gguf.py
- 量子化タイプ:
f16
: 16ビット浮動小数点、精度の損失が最小限、ファイルサイズが大きい (~5-7GB)。
bf16
: ブレイン浮動小数点16ビット、特定のハードウェア (例: TPU) 向けに最適化されており、f16
と同様のサイズ。
q8_0
: 8ビット量子化、サイズが縮小 (~3-4GB)、わずかな精度のトレードオフ。
tq1_0
: 三元量子化 (1ビット)、最も小さいサイズ (~1-2GB)、精度の損失が大きい。
tq2_0
: 三元量子化 (2ビットバリアント)、tq1_0
よりわずかに大きい、サイズと品質のバランスが取れている。
🔧 技術詳細
元の GemmaX2-28-2B-v0.1
モデルのパフォーマンスは、論文 Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study で詳細に説明されています。量子化によって、さまざまな程度のパフォーマンスのトレードオフが生じます。
f16
と bf16
: 元のモデルの精度に近く、劣化が最小限です。
q8_0
: 翻訳品質がわずかに低下しますが、ほとんどの実用的なアプリケーションに適しています。
tq1_0
と tq2_0
: 品質の低下が顕著で、精度よりも速度とサイズを優先するシナリオに最適です。
正確なメトリクスは、下流のタスクとデータセットに依存します。ユーザーは、特定のユースケースに対するパフォーマンスを評価することをお勧めします。
📄 ライセンス
このモデルは [Apache 2.0] ライセンスの下で提供されています。
モデルの情報
属性 |
详情 |
モデルタイプ |
Transformerベースの言語モデル、翻訳用に微調整され、GGUF形式に量子化されています。 |
訓練データ |
28の言語にわたる560億トークンの多様なデータセット |
引用
元のモデルについては、以下のように引用してください。
@misc{cui2025multilingualmachinetranslationopen,
title={Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study},
author={Menglong Cui and Pengzhi Gao and Wei Liu and Jian Luan and Bin Wang},
year={2025},
eprint={2502.02481},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02481},
}
これらの量子化バージョンについては、以下も引用してください。
注意事項
⚠️ 重要提示
- このモデルは上記の28の言語のみをサポートしており、サポートされていない言語でのパフォーマンスは保証されません。
- 低ビットの量子化 (
tq1_0
, tq2_0
) は、特に複雑な文やまれな言語ペアでは、翻訳品質を低下させる可能性があります。
bf16
は特定のハードウェアサポート (例: NVIDIA Ampere GPU、TPU) が必要で、それ以外の場合はパフォーマンスが異なる可能性があります。
- 元の作者は
GemmaX2-28-2B
の翻訳能力を向上させる予定ですが、これらの量子化バージョンに反映されるまでに時間がかかる場合があります。