🚀 AXCXEPT/EZO2.5 - gemma - 3 - 12b - it - Preview
本模型通过独特的训练方法提升了基础模型在日语任务上的性能,在短时间训练内实现了性能突破,为自然语言处理领域提供了新的解决方案。
🚀 快速开始
此模型可在单个A40 GPU上运行。以下是运行示例:
vllm serve AXCXEPT/EZO2.5-gemma-3-12b-it-Preview --max-model-len 32768 --enforce-eager
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="token-abc123",
)
prompt = """Every morning Aya goes for a $9$-kilometer-long walk and stops at a coffee shop afterwards. When she walks at a constant speed of $s$ kilometers per hour, the walk takes her 4 hours, including $t$ minutes spent in the coffee shop. When she walks $s+2$ kilometers per hour, the walk takes her 2 hours and 24 minutes, including $t$ minutes spent in the coffee shop. Suppose Aya walks at $s+rac{1}{2}$ kilometers per hour. Find the number of minutes the walk takes her, including the $t$ minutes spent in the coffee shop."""
completion = client.chat.completions.create(
model="AXCXEPT/EZO2.5-gemma-3-12b-it-Preview",
messages=[
{"role": "user", "content": prompt}
],
temperature=0.0,
top_p=1.0,
max_tokens: 20480
)
print(completion.choices[0].message)
⚠️ 重要提示
基准测试分数是基于temperature为0.0、top_p为1.0、"max_tokens"为20480进行推理的结果。尚未进行Cons@64等因数据离散性导致的评估。
✨ 主要特性
将近期出现的能让大语言模型(LLM)自主提升能力的“GRPO”和“PPO”概念,融入公司自主研发的“EZO”训练方法中。通过3000个数据集,在8台H200 GPU上进行2小时的训练,成功提升了基础模型在Japanese MT Bench和Elyza Tasks100上的日语性能。
虽然该训练方法仍处于研究阶段,需要对方法进行自动化和消融实验,但它有望成为复杂且耗时的GRPO/PPO等强化学习方法的替代方案,即使在预算有限的情况下也能实现。
📊 基准测试

该模型基于本身就具备较高日语性能的google/gemma - 3 - 12b - it,通过短时间训练实现了性能提升,在一定程度上逼近32B和72B模型,随着基础模型性能的提升,也实现了特定类型任务的性能提升。
由于后续需要增加基准测试的多样性,未来计划使用选择更多的英语进行测试,并开展训练成果实用性的实证研究。
📄 许可证
本模型是为研究目的而开发的。请在理解本公司及开发者对使用过程中产生的任何损害不承担任何责任的前提下使用该模型。
🙏 特别感谢
在此向开发本模型基础模型的Google公司及其开发团队表示崇高的敬意和感谢。
📋 模型信息
属性 |
详情 |
库名称 |
transformers |
许可证 |
gemma |
语言 |
日语 |
基础模型 |
google/gemma-3-12b-it |
任务类型 |
图像文本转文本 |
标签 |
gemma - 3、日语、文本生成 |