🚀 SAM (小型智能模型)
SAM(小型智能模型)是一个70亿参数的模型,尽管规模相对较小,但展现出了令人瞩目的推理能力。SAM - 7B在包括GSM8k和ARC - C等多个推理基准测试中,超越了现有的最优模型。
若需了解该模型的完整详情,请阅读我们的发布博客文章。
🚀 快速开始
你可以按照以下代码示例运行该模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "SuperAGI/SAM"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Can elephants fly?"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主要特性
- SAM - 7B在包括ARC - C和GSM8k等多个推理基准测试中,超越了GPT 3.5、Orca和其他几个700亿参数的模型。
- 有趣的是,尽管训练数据集比Orca - 13B小97%,但SAM - 7B在GSM8k测试中仍超越了Orca - 13B。
- 我们微调数据集中的所有回复均由开源模型生成,未借助GPT - 3.5或GPT - 4等最先进模型的帮助。
📚 详细文档
训练信息
属性 |
详情 |
训练团队 |
SuperAGI团队 |
硬件 |
NVIDIA 6 x H100 SxM (80GB) |
基础模型 |
Mistral 7B |
微调时长 |
4小时 |
训练轮数 |
1 |
批次大小 |
16 |
学习率 |
2e - 5 |
预热比例 |
0.1 |
优化器 |
AdamW |
调度器 |
Cosine |
示例提示
用于为指令模型构建提示的模板定义如下:
<s> [INST] Instruction [/INST] Model answer</s> [INST] Follow - up instruction [/INST]
请注意,<s>
和</s>
是字符串开始(BOS)和字符串结束(EOS)的特殊标记,而[INST]
和[/INST]
是常规字符串。
评估
这些基准测试表明,与orca 2 - 7b、orca 2 - 13b和GPT - 3.5相比,我们的模型推理能力有所提升。尽管模型规模较小,但在多跳推理方面表现更优,如下图所示:

⚠️ 重要提示
建议将温度参数设置为0.3以获得最佳性能。
局限性
SAM证明了使用由开源大语言模型生成的少量但高质量的数据可以提升推理能力。该模型不适用于对话和简单问答,仅在任务分解和推理方面表现较好。它没有任何审核机制,因此由于缺乏对毒性、社会偏见和语言限制的防护措施,该模型不适合用于生产环境。我们希望与社区合作,共同构建更安全、更好的模型。
📄 许可证
本项目采用Apache - 2.0许可证。
👥 团队成员
Anmol Gautam、Arkajit Datta、Rajat Chawla、Ayush Vatsal、Sukrit Chatterjee、Adarsh Jha、Abhijeet Sinha、Rakesh Krishna、Adarsh Deep、Ishaan Bhola、Mukunda NS、Nishant Gaurav。