🚀 遇見10.7B的Solar:通過Upstage深度擴展提升性能!
SOLAR-10.7B是一款先進的大語言模型(LLM),擁有107億參數,在各種自然語言處理(NLP)任務中表現卓越。它體積小巧卻功能強大,在參數少於300億的模型中展現出無與倫比的先進性能。
🚀 快速開始
SOLAR-10.7B是一款預訓練模型,初始狀態下僅能生成隨機文本。若要將其用於聊天,你需要先對模型進行微調。
版本
請確保你安裝了正確版本的transformers庫:
pip install transformers==4.35.2
加載模型
使用以下Python代碼加載模型:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Upstage/SOLAR-10.7B-v1.0")
model = AutoModelForCausalLM.from_pretrained(
"Upstage/SOLAR-10.7B-v1.0",
device_map="auto",
torch_dtype=torch.float16,
)
生成文本
使用以下Python代碼生成文本:
text = "Hi, my name is "
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主要特性
- 卓越性能:研究團隊提出了一種名為深度擴展(DUS)的大語言模型擴展方法,包括架構修改和持續預訓練。具體來說,他們將Mistral 7B的權重集成到擴展層中,最後對整個模型進行持續預訓練。該模型表現卓越,超越了參數高達300億的模型,甚至超過了最近的Mixtral 8X7B模型。
- 適合微調:SOLAR-10.7B是微調的理想選擇,它為你的微調需求提供了強大的魯棒性和適應性。使用SOLAR-10.7B預訓練模型進行簡單的指令微調,可顯著提升性能(SOLAR-10.7B-Instruct-v1.0)。
📚 詳細文檔
有關此模型的完整詳細信息,請閱讀我們的論文。
📊 評估結果
模型 |
H6 |
模型大小 |
SOLAR-10.7B-Instruct-v1.0 |
74.20 |
~ 11B |
mistralai/Mixtral-8x7B-Instruct-v0.1 |
72.62 |
~ 46.7B |
01-ai/Yi-34B-200K |
70.81 |
~ 34B |
01-ai/Yi-34B |
69.42 |
~ 34B |
mistralai/Mixtral-8x7B-v0.1 |
68.42 |
~ 46.7B |
meta-llama/Llama-2-70b-hf |
67.87 |
~ 70B |
tiiuae/falcon-180B |
67.85 |
~ 180B |
SOLAR-10.7B-v1.0 |
66.04 |
~11B |
mistralai/Mistral-7B-Instruct-v0.2 |
65.71 |
~ 7B |
Qwen/Qwen-14B |
65.86 |
~ 14B |
01-ai/Yi-34B-Chat |
65.32 |
~34B |
meta-llama/Llama-2-70b-chat-hf |
62.4 |
~ 70B |
mistralai/Mistral-7B-v0.1 |
60.97 |
~ 7B |
mistralai/Mistral-7B-Instruct-v0.1 |
54.96 |
~ 7B |
📄 許可證
📖 如何引用
請使用以下格式引用此模型:
@misc{kim2023solar,
title={SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling},
author={Dahyun Kim and Chanjun Park and Sanghoon Kim and Wonsung Lee and Wonho Song and Yunsu Kim and Hyeonwoo Kim and Yungi Kim and Hyeonju Lee and Jihoo Kim and Changbae Ahn and Seonghoon Yang and Sukyung Lee and Hyunbyung Park and Gyoungjin Gim and Mikyoung Cha and Hwalsuk Lee and Sunghun Kim},
year={2023},
eprint={2312.15166},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
👥 Upstage AI團隊
Upstage正在打造最優秀的大語言模型和文檔人工智能。請訪問https://upstage.ai 瞭解更多信息。
📞 聯繫我們
如有任何問題和建議,請使用討論區。如果你想直接聯繫我們,請發送電子郵件至 contact@upstage.ai 。