🚀 AceInstruct:先进的指令模型
AceInstruct 是一系列先进的 SFT 模型,可用于编码、数学和通用任务。该系列模型包括 AceInstruct-1.5B、7B 和 72B,基于 Qwen 进行了改进。这些模型在 Qwen2.5-Base 上使用通用 SFT 数据集进行微调,这些数据集同样用于训练 AceMath-Instruct。与专注于数学问题的 AceMath-Instruct 不同,AceInstruct 具有通用性,可应用于广泛的领域。在编码、数学和常识任务的基准评估中,AceInstruct 的表现与 Qwen2.5-Instruct 相当。
如需了解更多关于 AceInstruct 的信息,请访问我们的网站和论文。
✨ 主要特性
- 多功能性:适用于编码、数学和通用任务,应用范围广泛。
- 性能优越:在多个基准测试中表现出色,与 Qwen2.5-Instruct 性能相当。
- 改进架构:基于 Qwen 进行改进,提升了模型的性能和适用性。
📊 基准测试结果
|
Qwen2.5-1.5B-Instruct |
AceInstruct-1.5B |
Qwen2.5-7B-Instruct |
AceInstruct-7B |
Qwen2.5-72B-Instruct |
AceInstruct-72B |
HumanEval |
61.60 |
73.17 |
84.80 |
85.37 |
86.60 |
89.63 |
MBPP |
63.20 |
65.76 |
79.20 |
74.32 |
88.20 |
83.66 |
GSM8K |
73.20 |
80.44 |
91.60 |
93.10 |
95.80 |
96.36 |
MATH |
55.20 |
60.34 |
75.50 |
76.40 |
83.10 |
84.50 |
MMLU |
58.37 |
58.17 |
74.51 |
74.68 |
84.67 |
83.88 |
MMLU Pro |
32.40 |
33.78 |
56.30 |
54.50 |
71.10 |
66.10 |
Average |
57.33 |
61.94 |
76.99 |
76.40 |
84.91 |
84.02 |
我们在编码、数学和常识任务中对 AceInstruct 和 Qwen2.5-Instruct 进行了比较。结果显示,AceInstruct-1.5B 的表现优于 Qwen2.5-1.5B-Instruct(61.94 对 57.33),而 AceInstruct-7B 和 AceInstruct-72B 的表现与 Qwen2.5-7B-Instruct 和 Qwen2.5-72B-Instruct 相近。
📦 所有资源
AceMath 指令模型
AceMath 奖励模型
评估与训练数据
通用指令模型
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "AceInstruct-72B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
prompt = "Tell me something about artificial intelligence."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")
generated_ids = model.generate(
**model_inputs,
max_new_tokens=1024
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
📞 联系方式
- Zihan Liu (zihanl@nvidia.com)
- Yang Chen (yachen@nvidia.com)
- Wei Ping (wping@nvidia.com)
📚 引用信息
如果您认为我们的工作有帮助,请引用我们的论文:
@article{acemath2024,
title={AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling},
author={Liu, Zihan and Chen, Yang and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
journal={arXiv preprint},
year={2024}
}
📄 许可证
AceInstruct 系列的所有模型仅用于非商业用途,需遵守 OpenAI 数据使用条款。我们将 AceInstruct 模型置于 Creative Commons Attribution: Non-Commercial 4.0 International 许可之下。