🚀 AceInstruct:先進的指令模型
AceInstruct 是一系列先進的 SFT 模型,可用於編碼、數學和通用任務。該系列模型包括 AceInstruct-1.5B、7B 和 72B,基於 Qwen 進行了改進。這些模型在 Qwen2.5-Base 上使用通用 SFT 數據集進行微調,這些數據集同樣用於訓練 AceMath-Instruct。與專注於數學問題的 AceMath-Instruct 不同,AceInstruct 具有通用性,可應用於廣泛的領域。在編碼、數學和常識任務的基準評估中,AceInstruct 的表現與 Qwen2.5-Instruct 相當。
如需瞭解更多關於 AceInstruct 的信息,請訪問我們的網站和論文。
✨ 主要特性
- 多功能性:適用於編碼、數學和通用任務,應用範圍廣泛。
- 性能優越:在多個基準測試中表現出色,與 Qwen2.5-Instruct 性能相當。
- 改進架構:基於 Qwen 進行改進,提升了模型的性能和適用性。
📊 基準測試結果
|
Qwen2.5-1.5B-Instruct |
AceInstruct-1.5B |
Qwen2.5-7B-Instruct |
AceInstruct-7B |
Qwen2.5-72B-Instruct |
AceInstruct-72B |
HumanEval |
61.60 |
73.17 |
84.80 |
85.37 |
86.60 |
89.63 |
MBPP |
63.20 |
65.76 |
79.20 |
74.32 |
88.20 |
83.66 |
GSM8K |
73.20 |
80.44 |
91.60 |
93.10 |
95.80 |
96.36 |
MATH |
55.20 |
60.34 |
75.50 |
76.40 |
83.10 |
84.50 |
MMLU |
58.37 |
58.17 |
74.51 |
74.68 |
84.67 |
83.88 |
MMLU Pro |
32.40 |
33.78 |
56.30 |
54.50 |
71.10 |
66.10 |
Average |
57.33 |
61.94 |
76.99 |
76.40 |
84.91 |
84.02 |
我們在編碼、數學和常識任務中對 AceInstruct 和 Qwen2.5-Instruct 進行了比較。結果顯示,AceInstruct-1.5B 的表現優於 Qwen2.5-1.5B-Instruct(61.94 對 57.33),而 AceInstruct-7B 和 AceInstruct-72B 的表現與 Qwen2.5-7B-Instruct 和 Qwen2.5-72B-Instruct 相近。
📦 所有資源
AceMath 指令模型
AceMath 獎勵模型
評估與訓練數據
通用指令模型
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "AceInstruct-72B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
prompt = "Tell me something about artificial intelligence."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")
generated_ids = model.generate(
**model_inputs,
max_new_tokens=1024
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
📞 聯繫方式
- Zihan Liu (zihanl@nvidia.com)
- Yang Chen (yachen@nvidia.com)
- Wei Ping (wping@nvidia.com)
📚 引用信息
如果您認為我們的工作有幫助,請引用我們的論文:
@article{acemath2024,
title={AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling},
author={Liu, Zihan and Chen, Yang and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
journal={arXiv preprint},
year={2024}
}
📄 許可證
AceInstruct 系列的所有模型僅用於非商業用途,需遵守 OpenAI 數據使用條款。我們將 AceInstruct 模型置於 Creative Commons Attribution: Non-Commercial 4.0 International 許可之下。