🚀 GemmaX2-28-2B GGUF量子化モデルカード
このモデルは、多言語翻訳に特化したTransformerベースの言語モデルで、量子化されたバージョンが提供されており、リソース制約のある環境でも効率的に推論できます。
🚀 クイックスタート
元のモデルでの使用方法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我爱机器翻译\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
GGUF量子化モデルでの使用方法
Tonic/GemmaX2-28-2B-gguf
からGGUFファイルをダウンロードし、llama.cpp
のようなGGUF対応の推論ツールを使用します。
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我爱机器翻译"
利用可能なファイル:
gemmax2-28-2b-f16.gguf
gemmax2-28-2b-bf16.gguf
gemmax2-28-2b-q8_0.gguf
gemmax2-28-2b-tq1_0.gguf
gemmax2-28-2b-tq2_0.gguf
✨ 主な機能
- 多言語対応: アラビア語、ベンガル語、チェコ語、ドイツ語、英語、スペイン語、ペルシャ語、フランス語、ヘブライ語、ヒンディー語、インドネシア語、イタリア語、日本語、クメール語、韓国語、ラオス語、マレー語、ビルマ語、オランダ語、ポーランド語、ポルトガル語、ロシア語、タイ語、タガログ語、トルコ語、ウルドゥー語、ベトナム語、中国語など28言語をサポート。
- 量子化形式の選択:
f16
、bf16
、q8_0
、tq1_0
、tq2_0
の量子化形式が利用可能で、リソース制約のある環境でも効率的な推論が可能。
📚 ドキュメント
モデル概要
GemmaX2-28-2B GGUF量子化モデル は、Xiaomiが開発したGemmaX2-28-2B-v0.1
の量子化バージョンです。元のモデルは、28言語にまたがる560億トークンの多様なデータセットを使用して GemmaX2-28-2B-Pretrain
からファインチューニングされています。これらのGGUFバージョン (f16
、bf16
、q8_0
、tq1_0
、tq2_0
) は、翻訳能力を維持しながら、リソース制約のある環境での効率的な推論のために最適化されています。
- 開発元: Xiaomi(元のモデル); 量子化はTonicによる
- モデルタイプ: Transformerベースの言語モデル、翻訳用にファインチューニングされ、GGUF形式に量子化
- 量子化形式:
f16
(16ビット浮動小数点数)、bf16
(bfloat16)、q8_0
(8ビット量子化)、tq1_0
(三元量子化1)、tq2_0
(三元量子化2)
- 対応言語: アラビア語、ベンガル語、チェコ語、ドイツ語、英語、スペイン語、ペルシャ語、フランス語、ヘブライ語、ヒンディー語、インドネシア語、イタリア語、日本語、クメール語、韓国語、ラオス語、マレー語、ビルマ語、オランダ語、ポーランド語、ポルトガル語、ロシア語、タイ語、タガログ語、トルコ語、ウルドゥー語、ベトナム語、中国語
- ライセンス: [Apache 2.0]
- リポジトリ: Tonic/GemmaX2-28-2B-gguf
量子化の詳細
- ソースモデル:
ModelSpace/GemmaX2-28-2B-v0.1
- 変換ツール:
convert_hf_to_gguf.py
- 量子化タイプ:
f16
: 16ビット浮動小数点数、精度の損失が最小限、ファイルサイズが大きい (~5-7GB)。
bf16
: Brain浮動小数点数16ビット、特定のハードウェア (例: TPU) で最適化され、f16
と同程度のサイズ。
q8_0
: 8ビット量子化、ファイルサイズが縮小 (~3-4GB)、精度が若干低下。
tq1_0
: 三元量子化 (1ビット)、最も小さいファイルサイズ (~1-2GB)、精度の損失が大きい。
tq2_0
: 三元量子化 (2ビットバリアント)、tq1_0
より若干大きいサイズ、サイズと品質のバランスが取れている。
想定される使用方法
- 多言語翻訳: サポートされている28言語間のテキスト翻訳。
- 効率的な推論: GGUF対応のフレームワーク (例:
llama.cpp
) を使用して、エッジデバイス、低メモリシステム、または計算リソースが限られた環境でのデプロイ。
- 研究: 量子化レベルと翻訳性能のトレードオフを研究する。
使用例
- リアルタイム翻訳アプリケーション。
- モバイルまたは組み込みデバイスでのオフライン翻訳。
- 多言語設定での量子化LLM性能のベンチマーク。
モデルの性能
元の GemmaX2-28-2B-v0.1
モデルの性能は、論文 Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study に詳細が記載されています。量子化により、さまざまな程度の性能トレードオフが導入されます。
f16
と bf16
: 元のモデルの精度にほぼ匹敵し、劣化は最小限。
q8_0
: 翻訳品質が若干低下するが、ほとんどの実用的なアプリケーションに適しています。
tq1_0
と tq2_0
: 品質の低下が顕著で、精度よりも速度とサイズを優先するシナリオに最適。
正確なメトリクスは、下流のタスクとデータセットに依存するため、ユーザーは特定の使用ケースに対する性能を評価することをお勧めします。
制限事項
- 言語サポート: 上記の28言語のみをサポートし、サポートされていない言語での性能は保証されません。
- 量子化のトレードオフ: 低ビット量子化 (
tq1_0
、tq2_0
) は、特に複雑な文やまれな言語ペアの場合、翻訳品質を低下させる可能性があります。
- ハードウェア互換性:
bf16
は特定のハードウェアサポート (例: NVIDIA Ampere GPU、TPU) が必要で、そうでない場合、性能が異なる可能性があります。
- 将来の改善: 元の作者は
GemmaX2-28-2B
の翻訳機能を強化する予定ですが、これらの量子化バージョンに反映されるまでに時間がかかる可能性があります。
引用
元のモデルについては、以下のように引用してください。
@misc{cui2025multilingualmachinetranslationopen,
title={Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study},
author={Menglong Cui and Pengzhi Gao and Wei Liu and Jian Luan and Bin Wang},
year={2025},
eprint={2502.02481},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02481},
}
これらの量子化バージョンについては、以下も引用してください。
問い合わせ
元のモデルに関する質問は、Xiaomiの公開資料を参照してください。GGUF量子化モデルに関する問題は、Tonic/GemmaX2-28-2B-gguf
のHugging FaceディスカッションでTonicに問い合わせてください。
📄 ライセンス
このモデルは [Apache 2.0] ライセンスの下で提供されています。