🚀 AXCXEPT/EZO2.5 - gemma - 3 - 12b - it - Preview
このモデルは、「GRPO」や「PPO」の概念を独自のトレーニング手法「EZO」にミックスすることで、ベースモデルの日本語性能を向上させたものです。短時間のトレーニングで性能向上を達成し、特定のタスクでの性能も向上しています。

🚀 クイックスタート
このモデルは単一のA40 GPU上で実行できます。以下に実行コマンドや使用例を示します。
✨ 主な機能
- 「GRPO」や「PPO」の概念を「EZO」トレーニング手法にミックスし、ベースモデルの日本語性能を向上。
- 短時間のトレーニングで、Japanese MT BenchおよびElyza Tasks100における性能向上を達成。
- 32Bや72Bのモデルにも一部肉薄し、特化型の性能向上を実現。
📦 インストール
このモデルは単一のA40 GPU上で実行できます。以下のコマンドを使用してサーバーを起動できます。
vllm serve AXCXEPT/EZO2.5-gemma-3-12b-it-Preview --max-model-len 32768 --enforce-eager
💻 使用例
基本的な使用法
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="token-abc123",
)
prompt = """Every morning Aya goes for a $9$-kilometer-long walk and stops at a coffee shop afterwards. When she walks at a constant speed of $s$ kilometers per hour, the walk takes her 4 hours, including $t$ minutes spent in the coffee shop. When she walks $s+2$ kilometers per hour, the walk takes her 2 hours and 24 minutes, including $t$ minutes spent in the coffee shop. Suppose Aya walks at $s+rac{1}{2}$ kilometers per hour. Find the number of minutes the walk takes her, including the $t$ minutes spent in the coffee shop."""
completion = client.chat.completions.create(
model="AXCXEPT/EZO2.5-gemma-3-12b-it-Preview",
messages=[
{"role": "user", "content": prompt}
],
temperature=0.0,
top_p=1.0,
max_tokens: 20480
)
print(completion.choices[0].message)
注意事項
⚠️ 重要提示
ベンチマークスコアは、temperature: 0.0、top_p: 1.0、"max_tokens": 20480で推論した結果に基づきます。Cons@64などのばらつきによる評価は未実施です。
📚 ドキュメント
モデル詳細
昨今登場したLLM自身の力を自力で向上させる「GRPO」や「PPO」の概念を、弊社で開発した「EZO」というトレーニング手法にミックスすることで、3,000件のデータセット、2時間×H200×8台のトレーニングで、Japanese MT Benchおよび、Elyza Tasks100におけるベースモデルの日本語性能を向上させることに成功したモデルです。
本トレーニング手法は、まだ研究段階にあり手法の自動化や、アブレーションが必要なステータスではあるものの、複雑かつ非常に時間がかかるGRPO/PPOといった強化学習方法を、低予算でも実現できる大体の手段となりえると考えています。
ベンチマーク

もともと非常に高い日本語性能を示していた、google/gemma - 3 - 12b - itから、短時間のトレーニングで性能向上を達成。32B, 72Bのモデルにも一部肉薄し、ベースモデルの性能向上に伴い特化型の性能向上が実現できている。
※ただし、ベンチマークそのものの多様性が今後必要となるため、今後は、選択肢の多い英語での実施も行い、トレーニング成果の実用性実証研究を行う予定です。
📄 ライセンス
このモデルは研究のために開発されています。利用に際する一切の損害に関して、当社ならびに開発者は一切責任を負いません。ご利用に際してはこの点をご理解の上でご活用ください。
🔖 特別な感謝
本モデルのベースモデルの開発を行った、Google社ならびに同社の開発チームに、深い敬意と感謝の意を表します。