SOLAR-10.7B-v1.0開源大語言模型 - 深度擴展技術，300億參數下表現卓越

首頁

SOLAR 10.7B V1.0

由upstage開發

SOLAR-10.7B是一個擁有107億參數的大語言模型，通過深度向上擴展技術實現卓越性能，在300億參數以下模型中表現頂尖。

大型語言模型

Transformers

開源協議:Apache-2.0 #深度向上擴展技術 #107億參數高效模型 #超越300億級性能

下載量 7,480

發布時間 : 12/12/2023

模型概述

SOLAR-10.7B是一個先進的大語言模型，採用深度向上擴展(DUS)方法構建，在各類自然語言處理任務中展現出卓越性能。雖然結構緊湊，但其性能超越許多更大規模的模型。

模型特點

深度向上擴展技術

採用創新的DUS方法擴展模型規模，融合架構改進與持續預訓練策略，實現高效擴展

卓越性能

在300億參數以下模型中表現頂尖，甚至超越最新發布的Mixtral 8X7B模型

高效微調

為微調任務提供強大的魯棒性和適應性，簡單指令微調即可帶來顯著性能提升

模型能力

文本生成

自然語言理解

指令跟隨

使用案例

自然語言處理

文本補全

根據給定文本提示生成連貫的後續內容

生成流暢、符合語境的文本

對話系統

作為基礎模型用於構建對話AI系統

需進行額外微調以獲得最佳對話效果

研究應用

模型壓縮研究

研究如何在較小模型規模下實現高性能

為高效模型架構設計提供參考

🚀 遇見10.7B的Solar：通過Upstage深度擴展提升性能！

SOLAR-10.7B是一款先進的大語言模型（LLM），擁有107億參數，在各種自然語言處理（NLP）任務中表現卓越。它體積小巧卻功能強大，在參數少於300億的模型中展現出無與倫比的先進性能。

🚀 快速開始

SOLAR-10.7B是一款預訓練模型，初始狀態下僅能生成隨機文本。若要將其用於聊天，你需要先對模型進行微調。

版本

請確保你安裝了正確版本的transformers庫：

pip install transformers==4.35.2

加載模型

使用以下Python代碼加載模型：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Upstage/SOLAR-10.7B-v1.0")
model = AutoModelForCausalLM.from_pretrained(
    "Upstage/SOLAR-10.7B-v1.0",
    device_map="auto",
    torch_dtype=torch.float16,
)

生成文本

使用以下Python代碼生成文本：

text = "Hi, my name is "
inputs = tokenizer(text, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

卓越性能：研究團隊提出了一種名為深度擴展（DUS）的大語言模型擴展方法，包括架構修改和持續預訓練。具體來說，他們將Mistral 7B的權重集成到擴展層中，最後對整個模型進行持續預訓練。該模型表現卓越，超越了參數高達300億的模型，甚至超過了最近的Mixtral 8X7B模型。
適合微調：SOLAR-10.7B是微調的理想選擇，它為你的微調需求提供了強大的魯棒性和適應性。使用SOLAR-10.7B預訓練模型進行簡單的指令微調，可顯著提升性能（SOLAR-10.7B-Instruct-v1.0）。

📚 詳細文檔

有關此模型的完整詳細信息，請閱讀我們的論文。

📊 評估結果

模型	H6	模型大小
SOLAR-10.7B-Instruct-v1.0	74.20	~ 11B
mistralai/Mixtral-8x7B-Instruct-v0.1	72.62	~ 46.7B
01-ai/Yi-34B-200K	70.81	~ 34B
01-ai/Yi-34B	69.42	~ 34B
mistralai/Mixtral-8x7B-v0.1	68.42	~ 46.7B
meta-llama/Llama-2-70b-hf	67.87	~ 70B
tiiuae/falcon-180B	67.85	~ 180B
SOLAR-10.7B-v1.0	66.04	~11B
mistralai/Mistral-7B-Instruct-v0.2	65.71	~ 7B
Qwen/Qwen-14B	65.86	~ 14B
01-ai/Yi-34B-Chat	65.32	~34B
meta-llama/Llama-2-70b-chat-hf	62.4	~ 70B
mistralai/Mistral-7B-v0.1	60.97	~ 7B
mistralai/Mistral-7B-Instruct-v0.1	54.96	~ 7B

📄 許可證

upstage/SOLAR-10.7B-v1.0：採用apache-2.0許可證。
upstage/SOLAR-10.7B-Instruct-v1.0：採用cc-by-nc-4.0許可證。
- 由於微調使用了一些非商業數據集（如Alpaca），因此微調後的模型採用cc-by-nc-4.0許可證發佈。

📖 如何引用

請使用以下格式引用此模型：

@misc{kim2023solar,
      title={SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling}, 
      author={Dahyun Kim and Chanjun Park and Sanghoon Kim and Wonsung Lee and Wonho Song and Yunsu Kim and Hyeonwoo Kim and Yungi Kim and Hyeonju Lee and Jihoo Kim and Changbae Ahn and Seonghoon Yang and Sukyung Lee and Hyunbyung Park and Gyoungjin Gim and Mikyoung Cha and Hwalsuk Lee and Sunghun Kim},
      year={2023},
      eprint={2312.15166},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}