🚀 AXCXEPT/EZO2.5 - gemma - 3 - 12b - it - Preview
本模型通過獨特的訓練方法提升了基礎模型在日語任務上的性能,在短時間訓練內實現了性能突破,為自然語言處理領域提供了新的解決方案。
🚀 快速開始
此模型可在單個A40 GPU上運行。以下是運行示例:
vllm serve AXCXEPT/EZO2.5-gemma-3-12b-it-Preview --max-model-len 32768 --enforce-eager
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="token-abc123",
)
prompt = """Every morning Aya goes for a $9$-kilometer-long walk and stops at a coffee shop afterwards. When she walks at a constant speed of $s$ kilometers per hour, the walk takes her 4 hours, including $t$ minutes spent in the coffee shop. When she walks $s+2$ kilometers per hour, the walk takes her 2 hours and 24 minutes, including $t$ minutes spent in the coffee shop. Suppose Aya walks at $s+rac{1}{2}$ kilometers per hour. Find the number of minutes the walk takes her, including the $t$ minutes spent in the coffee shop."""
completion = client.chat.completions.create(
model="AXCXEPT/EZO2.5-gemma-3-12b-it-Preview",
messages=[
{"role": "user", "content": prompt}
],
temperature=0.0,
top_p=1.0,
max_tokens: 20480
)
print(completion.choices[0].message)
⚠️ 重要提示
基準測試分數是基於temperature為0.0、top_p為1.0、"max_tokens"為20480進行推理的結果。尚未進行Cons@64等因數據離散性導致的評估。
✨ 主要特性
將近期出現的能讓大語言模型(LLM)自主提升能力的“GRPO”和“PPO”概念,融入公司自主研發的“EZO”訓練方法中。通過3000個數據集,在8臺H200 GPU上進行2小時的訓練,成功提升了基礎模型在Japanese MT Bench和Elyza Tasks100上的日語性能。
雖然該訓練方法仍處於研究階段,需要對方法進行自動化和消融實驗,但它有望成為複雜且耗時的GRPO/PPO等強化學習方法的替代方案,即使在預算有限的情況下也能實現。
📊 基準測試

該模型基於本身就具備較高日語性能的google/gemma - 3 - 12b - it,通過短時間訓練實現了性能提升,在一定程度上逼近32B和72B模型,隨著基礎模型性能的提升,也實現了特定類型任務的性能提升。
由於後續需要增加基準測試的多樣性,未來計劃使用選擇更多的英語進行測試,並開展訓練成果實用性的實證研究。
📄 許可證
本模型是為研究目的而開發的。請在理解本公司及開發者對使用過程中產生的任何損害不承擔任何責任的前提下使用該模型。
🙏 特別感謝
在此向開發本模型基礎模型的Google公司及其開發團隊表示崇高的敬意和感謝。
📋 模型信息
屬性 |
詳情 |
庫名稱 |
transformers |
許可證 |
gemma |
語言 |
日語 |
基礎模型 |
google/gemma-3-12b-it |
任務類型 |
圖像文本轉文本 |
標籤 |
gemma - 3、日語、文本生成 |