EZO2.5-gemma-3-12b-it-Preview開源文本生成模型

首頁

EZO2.5 Gemma 3 12b It Preview

由AXCXEPT開發

基於google/gemma-3-12b-it模型，通過EZO訓練方法提升日語性能的文本生成模型

大型語言模型

Transformers

日語#日語強化生成 #高效微調 #數學推理優化

下載量 39

發布時間 : 4/14/2025

模型概述

該模型結合GRPO和PPO概念，使用EZO訓練方法在有限數據集和計算資源下顯著提升了基礎模型的日語文本生成能力

模型特點

高效訓練方法

使用EZO訓練方法結合GRPO/PPO概念，僅需3000數據集和2小時×H200×8臺的訓練條件即可顯著提升性能

高性能日語處理

在Japanese MT Bench和Elyza Tasks100基準測試中表現優異，部分指標接近32B和72B模型

資源高效

可在單塊A40 GPU上運行，適合有限計算資源的環境

模型能力

日語文本生成

數學問題解答

長文本處理

使用案例

教育

數學問題解答

解決複雜的數學應用題

可準確解答包含多變量的數學問題

內容創作

日語文本生成

生成高質量的日語文本內容

生成流暢自然的日語文本

🚀 AXCXEPT/EZO2.5 - gemma - 3 - 12b - it - Preview

本模型通過獨特的訓練方法提升了基礎模型在日語任務上的性能，在短時間訓練內實現了性能突破，為自然語言處理領域提供了新的解決方案。

🚀 快速開始

此模型可在單個A40 GPU上運行。以下是運行示例：

vllm serve AXCXEPT/EZO2.5-gemma-3-12b-it-Preview --max-model-len 32768 --enforce-eager

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-abc123",
)

prompt = """Every morning Aya goes for a $9$-kilometer-long walk and stops at a coffee shop afterwards. When she walks at a constant speed of $s$ kilometers per hour, the walk takes her 4 hours, including $t$ minutes spent in the coffee shop. When she walks $s+2$ kilometers per hour, the walk takes her 2 hours and 24 minutes, including $t$ minutes spent in the coffee shop. Suppose Aya walks at $s+rac{1}{2}$ kilometers per hour. Find the number of minutes the walk takes her, including the $t$ minutes spent in the coffee shop."""
completion = client.chat.completions.create(
  model="AXCXEPT/EZO2.5-gemma-3-12b-it-Preview",
  messages=[
    {"role": "user", "content": prompt}
  ],
  temperature=0.0,
  top_p=1.0,
  max_tokens: 20480
)

print(completion.choices[0].message)

⚠️ 重要提示

基準測試分數是基於temperature為0.0、top_p為1.0、"max_tokens"為20480進行推理的結果。尚未進行Cons@64等因數據離散性導致的評估。

✨ 主要特性

將近期出現的能讓大語言模型（LLM）自主提升能力的“GRPO”和“PPO”概念，融入公司自主研發的“EZO”訓練方法中。通過3000個數據集，在8臺H200 GPU上進行2小時的訓練，成功提升了基礎模型在Japanese MT Bench和Elyza Tasks100上的日語性能。

雖然該訓練方法仍處於研究階段，需要對方法進行自動化和消融實驗，但它有望成為複雜且耗時的GRPO/PPO等強化學習方法的替代方案，即使在預算有限的情況下也能實現。

📊 基準測試

image/png

該模型基於本身就具備較高日語性能的google/gemma - 3 - 12b - it，通過短時間訓練實現了性能提升，在一定程度上逼近32B和72B模型，隨著基礎模型性能的提升，也實現了特定類型任務的性能提升。

由於後續需要增加基準測試的多樣性，未來計劃使用選擇更多的英語進行測試，並開展訓練成果實用性的實證研究。

📄 許可證

本模型是為研究目的而開發的。請在理解本公司及開發者對使用過程中產生的任何損害不承擔任何責任的前提下使用該模型。

🙏 特別感謝

在此向開發本模型基礎模型的Google公司及其開發團隊表示崇高的敬意和感謝。

📋 模型信息

屬性	詳情
庫名稱	transformers
許可證	gemma
語言	日語
基礎模型	google/gemma-3-12b-it
任務類型	圖像文本轉文本
標籤	gemma - 3、日語、文本生成