SOLAR-10.7B-v1.0开源大语言模型 - 深度扩展技术，300亿参数下表现卓越

首页

SOLAR 10.7B V1.0

由 upstage 开发

SOLAR-10.7B是一个拥有107亿参数的大语言模型，通过深度向上扩展技术实现卓越性能，在300亿参数以下模型中表现顶尖。

大型语言模型

Transformers

开源协议:Apache-2.0 #深度向上扩展技术 #107亿参数高效模型 #超越300亿级性能

下载量 7,480

发布时间 : 12/12/2023

模型简介

SOLAR-10.7B是一个先进的大语言模型，采用深度向上扩展(DUS)方法构建，在各类自然语言处理任务中展现出卓越性能。虽然结构紧凑，但其性能超越许多更大规模的模型。

模型特点

深度向上扩展技术

采用创新的DUS方法扩展模型规模，融合架构改进与持续预训练策略，实现高效扩展

卓越性能

在300亿参数以下模型中表现顶尖，甚至超越最新发布的Mixtral 8X7B模型

高效微调

为微调任务提供强大的鲁棒性和适应性，简单指令微调即可带来显著性能提升

模型能力

文本生成

自然语言理解

指令跟随

使用案例

自然语言处理

文本补全

根据给定文本提示生成连贯的后续内容

生成流畅、符合语境的文本

对话系统

作为基础模型用于构建对话AI系统

需进行额外微调以获得最佳对话效果

研究应用

模型压缩研究

研究如何在较小模型规模下实现高性能

为高效模型架构设计提供参考

🚀 遇见10.7B的Solar：通过Upstage深度扩展提升性能！

SOLAR-10.7B是一款先进的大语言模型（LLM），拥有107亿参数，在各种自然语言处理（NLP）任务中表现卓越。它体积小巧却功能强大，在参数少于300亿的模型中展现出无与伦比的先进性能。

🚀 快速开始

SOLAR-10.7B是一款预训练模型，初始状态下仅能生成随机文本。若要将其用于聊天，你需要先对模型进行微调。

版本

请确保你安装了正确版本的transformers库：

pip install transformers==4.35.2

加载模型

使用以下Python代码加载模型：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Upstage/SOLAR-10.7B-v1.0")
model = AutoModelForCausalLM.from_pretrained(
    "Upstage/SOLAR-10.7B-v1.0",
    device_map="auto",
    torch_dtype=torch.float16,
)

生成文本

使用以下Python代码生成文本：

text = "Hi, my name is "
inputs = tokenizer(text, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

卓越性能：研究团队提出了一种名为深度扩展（DUS）的大语言模型扩展方法，包括架构修改和持续预训练。具体来说，他们将Mistral 7B的权重集成到扩展层中，最后对整个模型进行持续预训练。该模型表现卓越，超越了参数高达300亿的模型，甚至超过了最近的Mixtral 8X7B模型。
适合微调：SOLAR-10.7B是微调的理想选择，它为你的微调需求提供了强大的鲁棒性和适应性。使用SOLAR-10.7B预训练模型进行简单的指令微调，可显著提升性能（SOLAR-10.7B-Instruct-v1.0）。

📚 详细文档

有关此模型的完整详细信息，请阅读我们的论文。

📊 评估结果

模型	H6	模型大小
SOLAR-10.7B-Instruct-v1.0	74.20	~ 11B
mistralai/Mixtral-8x7B-Instruct-v0.1	72.62	~ 46.7B
01-ai/Yi-34B-200K	70.81	~ 34B
01-ai/Yi-34B	69.42	~ 34B
mistralai/Mixtral-8x7B-v0.1	68.42	~ 46.7B
meta-llama/Llama-2-70b-hf	67.87	~ 70B
tiiuae/falcon-180B	67.85	~ 180B
SOLAR-10.7B-v1.0	66.04	~11B
mistralai/Mistral-7B-Instruct-v0.2	65.71	~ 7B
Qwen/Qwen-14B	65.86	~ 14B
01-ai/Yi-34B-Chat	65.32	~34B
meta-llama/Llama-2-70b-chat-hf	62.4	~ 70B
mistralai/Mistral-7B-v0.1	60.97	~ 7B
mistralai/Mistral-7B-Instruct-v0.1	54.96	~ 7B

📄 许可证

upstage/SOLAR-10.7B-v1.0：采用apache-2.0许可证。
upstage/SOLAR-10.7B-Instruct-v1.0：采用cc-by-nc-4.0许可证。
- 由于微调使用了一些非商业数据集（如Alpaca），因此微调后的模型采用cc-by-nc-4.0许可证发布。

📖 如何引用

请使用以下格式引用此模型：

@misc{kim2023solar,
      title={SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling}, 
      author={Dahyun Kim and Chanjun Park and Sanghoon Kim and Wonsung Lee and Wonho Song and Yunsu Kim and Hyeonwoo Kim and Yungi Kim and Hyeonju Lee and Jihoo Kim and Changbae Ahn and Seonghoon Yang and Sukyung Lee and Hyunbyung Park and Gyoungjin Gim and Mikyoung Cha and Hwalsuk Lee and Sunghun Kim},
      year={2023},
      eprint={2312.15166},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}