🚀 遇见10.7B的Solar:通过Upstage深度扩展提升性能!
SOLAR-10.7B是一款先进的大语言模型(LLM),拥有107亿参数,在各种自然语言处理(NLP)任务中表现卓越。它体积小巧却功能强大,在参数少于300亿的模型中展现出无与伦比的先进性能。
🚀 快速开始
SOLAR-10.7B是一款预训练模型,初始状态下仅能生成随机文本。若要将其用于聊天,你需要先对模型进行微调。
版本
请确保你安装了正确版本的transformers库:
pip install transformers==4.35.2
加载模型
使用以下Python代码加载模型:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Upstage/SOLAR-10.7B-v1.0")
model = AutoModelForCausalLM.from_pretrained(
"Upstage/SOLAR-10.7B-v1.0",
device_map="auto",
torch_dtype=torch.float16,
)
生成文本
使用以下Python代码生成文本:
text = "Hi, my name is "
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主要特性
- 卓越性能:研究团队提出了一种名为深度扩展(DUS)的大语言模型扩展方法,包括架构修改和持续预训练。具体来说,他们将Mistral 7B的权重集成到扩展层中,最后对整个模型进行持续预训练。该模型表现卓越,超越了参数高达300亿的模型,甚至超过了最近的Mixtral 8X7B模型。
- 适合微调:SOLAR-10.7B是微调的理想选择,它为你的微调需求提供了强大的鲁棒性和适应性。使用SOLAR-10.7B预训练模型进行简单的指令微调,可显著提升性能(SOLAR-10.7B-Instruct-v1.0)。
📚 详细文档
有关此模型的完整详细信息,请阅读我们的论文。
📊 评估结果
模型 |
H6 |
模型大小 |
SOLAR-10.7B-Instruct-v1.0 |
74.20 |
~ 11B |
mistralai/Mixtral-8x7B-Instruct-v0.1 |
72.62 |
~ 46.7B |
01-ai/Yi-34B-200K |
70.81 |
~ 34B |
01-ai/Yi-34B |
69.42 |
~ 34B |
mistralai/Mixtral-8x7B-v0.1 |
68.42 |
~ 46.7B |
meta-llama/Llama-2-70b-hf |
67.87 |
~ 70B |
tiiuae/falcon-180B |
67.85 |
~ 180B |
SOLAR-10.7B-v1.0 |
66.04 |
~11B |
mistralai/Mistral-7B-Instruct-v0.2 |
65.71 |
~ 7B |
Qwen/Qwen-14B |
65.86 |
~ 14B |
01-ai/Yi-34B-Chat |
65.32 |
~34B |
meta-llama/Llama-2-70b-chat-hf |
62.4 |
~ 70B |
mistralai/Mistral-7B-v0.1 |
60.97 |
~ 7B |
mistralai/Mistral-7B-Instruct-v0.1 |
54.96 |
~ 7B |
📄 许可证
📖 如何引用
请使用以下格式引用此模型:
@misc{kim2023solar,
title={SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling},
author={Dahyun Kim and Chanjun Park and Sanghoon Kim and Wonsung Lee and Wonho Song and Yunsu Kim and Hyeonwoo Kim and Yungi Kim and Hyeonju Lee and Jihoo Kim and Changbae Ahn and Seonghoon Yang and Sukyung Lee and Hyunbyung Park and Gyoungjin Gim and Mikyoung Cha and Hwalsuk Lee and Sunghun Kim},
year={2023},
eprint={2312.15166},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
👥 Upstage AI团队
Upstage正在打造最优秀的大语言模型和文档人工智能。请访问https://upstage.ai 了解更多信息。
📞 联系我们
如有任何问题和建议,请使用讨论区。如果你想直接联系我们,请发送电子邮件至 contact@upstage.ai 。